经 计算 原理 





(¥) Fredric M. Ham Ivica Kostanic # 叶 世 伟 王 海 娟 译 





Principles of Neurocomputing 
for Science & Engineering 


C)MM IM hM tt 


China Machine Press 








神经 计算 原理 


本 书 是 神经 网 络 领域 中 的 一 部 优秀 教材 ， 着 重 讲述 人 工 神经 网 络 基 本 原理 以 及 如 何 运用 各 种 神经 
计算 技术 来 解决 科学 和 工程 领域 中 的 现实 问题 ， 如 模式 识别 、 最 优化 、 事 件 分 类 、 非 线性 系统 的 控制 
和 识别 以 及 统计 分 析 等 。 





主要 特点 : 
e 算法 一 一 很 多 算法 用 框 线 有 明确 标 出 ， 便 于 读者 查找 。 
e MATLAB Toolbox 一 一 书 中 大 量 使 用 MATLAB 的 Neural Network Toolbox， 举 例 说 明神 经 计算 概念 。 
© Web 站 点 一 一 登录 http://www.mhhe.com/ham， 可 获取 最 新 、 最 全 面 的 信息 。 
© 示例 和 附录 一 一 各 章 有 详尽 的 示例 ， 闸 述 重要 的 神经 计算 概念 。 附 录 人 A 全 面 介绍 了 神经 计算 的 数学 
基础 。 
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本 书 比较 系统 全 面 地 介绍 了 人 工 神 经 网 络 的 理论 和 实际 应 用 ， 特 别 在 神经 网 络 模型 和 工程 
应 用 方面 有 极为 深入 的 分 析 和 讲解 。 全 书 不 仅 深入 分 析 神 经 网 络 的 基本 概念 ， 而 且 详 细 介绍 神 
经 网 络 应 用 方面 的 最 新 发 展 趋势 和 主要 研究 方向 。 本 书 理论 和 实际 应 用 紧密 结合 ， 为 神经 网 络 
的 相关 理论 知识 在 具体 问题 中 的 应 用 打下 了 坚实 的 基础 。 

本 书 适 合作 为 高 等 院 校 计算 机 专业 高 年 级 本 科 生 或 研究 生 的 教材 ， 也 可 供 人 工 智能 及 神经 
网 络 方面 的 研究 人 员 和 专业 技术 人 员 参 考 。 


Fredric M. Ham and Ivica Kostanic: Principles of Neurocomputing for Science and 
Engineering (ISBN 0-07-025966-6). 
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出 版 者 的 话 


文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 芍 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 双 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭 标 了 学 术 的 源 变 ， 既 遵 循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 人 迫切。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国 家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真 正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 
华章 公司 就 将 工作 重点 放 在 了 六 选 、 移 译 国 外 优秀 教材 上 。 经 过 几 年 的 不 懈 努 力 ， 我 们 与 
Prentice Hall, Addison-Wesley, McGraw-Hill, Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Tanenbaum Stroustrup, Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 丛书” 的 出 版 工作 得 到 了 国内 外 学 者 的 蜀 力 囊 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳 苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书籍 在 读者 中 树立 了 和 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打 下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教育 界 对 国外 计算 机 教科 的 需求 和 所 
用 都 步 入 一 个 新 的 阶段 。 为 此 ， 华 章 公 司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 ， 除 “计算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原版 书库 ”， 同时， 引进 全 美 通行 的 教学 辅导 书 “Schaum’s Outlines” 系 列 组 成 
“全 美 经 典 学 习 指 导 系 列 ”。 为 了 保证 这 三 套 丛 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公司 聘请 了 中 国 科 学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 疡 江 大 学 、 中 国 科技 大 学 、 哈 尔 滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航空 航天 大 学 、 北 京 邮电 大 学 、 中 出 大学、 解放军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国 家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 ”"， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M, I. T., Stanford, U.C. Berkeley, C. M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数 学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语言 设计 者 之 手 、 有 的 历经 三 十 年 而 不 豪 、 有 的 已 被 全 
世界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 
宫殿 中 由 登 堂 而 入 室 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服 务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 
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译 者 JF 


神经 计算 研究 的 重要 意义 已 经 为 许多 科学 家 所 共识 ， 神 经 计算 已 成 为 智能 计算 发 展 的 一 
个 主流 方向 。20 世 纪 80 年 代 中 期 以 来 ， 神 经 网 络 的 发 展 已 经 成 为 近代 非 线 性 科学 和 计算 智能 
研究 的 主要 内 容 之 一 。 特 别 是 神经 网 络 经 历 了 近 20 年 的 迅速 发 展 ， 其 独特 的 知识 表示 结构 和 
信息 处 理 的 原则 ， 使 其 在 许多 应 用 领域 中 取得 了 显著 效果 ， 成 为 信息 处 理 的 一 个 有 力 工具 ， 
为 解决 一 些 传统 计算 机 极 难 求解 的 问题 提供 了 全 新 的 思路 。 

目前 ， 神 经 网 络 的 研究 (包括 信息 处 理 机 制 、 原 理 和 应 用 ) 取得 了 长 足 的 发 展 ， 实 际 上 
神经 网 络 已 成 为 智能 信息 处 理 的 主要 技术 之 一 。 然 而 ， 如 何 有 效 地 擎 握 神经 网 络 的 基本 理论 ， 
如 何 利用 神经 网 络 的 信息 处 理 特点 对 实际 问题 求解 还 有 待 进一步 的 研究 。 在 对 神经 网 络 感 兴 
趣 的 科技 工作 者 中 ， 既 有 从 事 神经 网 络 模型 和 原理 方面 研究 的 理论 工作 者 ， 也 有 很 多 希望 利 
用 神经 网 络 新 颖 的 信息 处 理 机 制 求解 实际 问题 的 应 用 研究 者 。 如 何 紧 扣 神 经 网 络 的 发 展 方向 ， 
面向 应 用 、 面 向 广大 神经 网 络 的 理论 和 应 用 研究 者 ， 如 何 介绍 神经 网 络 的 系统 理论 和 具体 应 
用 ， 已 成 为 神经 网 络 课程 教学 面临 的 重大 挑战 。 当 然 ， 神 经 网 络 的 理论 研究 和 应 用 不 是 割裂 
开 来 的 ， 二 者 有 着 紧密 的 联系 。 本 书 正 是 从 这 一 点 人 人手， 首先 介绍 神经 网 络 的 基本 原理 和 系 
统 方 法 ， 然 后 ， 紧 密 联 系 神经 网 络 的 最 新 发 展 成 果 ， 从 神经 网 络 的 具体 应 用 领域 中 挑选 比较 
典型 的 应 用 ， 详 细 介绍 如 何 利 用 神经 网 络 解决 实际 问题 ， 比 较 已 有 的 解决 方法 和 神经 网 络 解 
决 方法 的 异同 ， 具 体 而 深入 地 介绍 神经 网 络 应 用 的 原理 、 方 法 和 结果 。 这 些 都 是 本 书 比较 突 
出 的 特点 。 | 

在 这 本 书 的 翻译 中 ， 我 们 力求 忠实 、 准 确 地 反映 原著 的 内 容 ， 同 时 ， 也 力求 保留 原著 的 
风格 。 由 于 神经 网 络 的 迅速 发 展 ， 许 多 神经 网 络 的 新 名 词 和 概念 还 设 有 确定 的 中 文 译 法 ， 所 
以 在 本 书 中 ， 凡 是 我 们 认为 不 能 完全 确定 的 名 词 或 术语 都 在 其 第 一 次 出 现 的 地 方 给 出 了 对 应 
的 英文 原文 ， 有 一 些 甚至 保留 了 英文 原文 ， 在 全 书 最 后 还 有 中 英文 索引 对 照 。 

神经 网 络 属于 多 学 科 交 又 领域 ， 研 究 范围 很 广 。 近 年 来 ， 研 究 成 果 层 出 不 穷 。 同 时 ， 由 
于 译 者 水 平 有 限 ， 书 中 错误 和 不 准确 之 处 在 所 难免 ， 姑 请 作者 和 读者 批评 指正 。 


译 者 
2007 年 1 月 
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亲身 经 历 是 最 好 的 学 习 。 
一 阿尔 伯 特 . 爱 因 斯 坦 


任何 一 本 教材 在 前 言 里 都 要 回答 四 个 主要 问题 : (1) 本 书 讲述 什么 主题 ? (2) 为 什么 出 
版 本 书 ? (3) 本 书 的 预期 读者 有 哪些 ， 需 要 哪些 预备 知识 ? (4) 书 中 包含 什么 具体 内 容 ? 

问 : 本 书 讲述 什么 主题 ? 

答 : 这 本 教材 是 关于 人 工 神经 网 络 (或 神经 网 络 ) 的 。 更 具体 地 说 ， 本 书 论述 神经 计算 。 
所 以 问题 实际 是 : 什么 是 神经 计算 ? 神经 计算 通常 就 是 指 信 息 处 理 。 与 程序 计算 不 同 ， 神 经 
计算 中 的 信息 处 理 首先 在 人工 神经 网 络 (神经 网 络 ) 结构 内 进行 学 习 ， 这 个 神经 结构 根据 预 
定 的 学 习 规则 学 会 或 自 适应 响应 输入 ， 在 神经 网 络 学 好 它 所 需要 知道 的 东西 之 后 ， 训 练 后 的 
神经 网 络 根 据 特定 的 应 用 可 以 用 于 执行 特定 的 任务 。 神 经 网 络 以 类 似 生物 的 交互 方式 ， 从 它 
们 的 环境 学 习 并 适应 环境 。 在 求解 那些 用 其 他 方法 解决 很 困难 的 科学 或 工程 问题 中 ， 神 经 计 
算 会 发 挥 重要 作用 ， 这 些 问 题 包括 : 模式 识别 、 优 化 、 事 件 分 类 、 非 线性 系统 的 控制 和 辨识 
以 及 统计 分 析 和 等。 因此， 本 书 主要 面向 希望 理解 人 工 神经 网 络 的 基本 原理 及 其 在 科学 和 工程 
中 应 用 的 读者 。 

问 : 为 什么 出 版 本 书 ? 

E: 神经 网 络 的 领域 非常 宽广 ， 且 与 多 学 科 交 叉 。 神 经 网 络 技术 已 经 引起 了 许多 不 同 领 
域 的 研究 者 的 兴趣 ， 而 且 成 果 非 常 庞大 。 关 于 神经 网 络 技术 的 书籍 有 很 多 。 但 是 ， 作 者 感到 
需要 一 本 专门 针对 科学 家 和 工程 师 的 书 ， 即 针对 那些 希望 应 用 神经 网 络 求解 复杂 问题 的 科学 
家 和 工程 师 。 这 并 不 意味 着 本 书 只 讲解 神经 结构 及 其 相应 训练 算法 ， 实 际 上 ， 本 书 给 出 了 许 
多 可 用 于 求解 科学 和 工程 中 大 量 问题 的 各 种 神经 计算 方法 。 在 介绍 几乎 所 有 的 神经 计算 概念 
时 ， 都 给 出 详细 的 数学 推导 ， 以 及 与 这 个 特定 结构 相伴 的 说 明 性 例子 和 相应 的 训练 算法 。 

问 : 本 书 的 预期 读者 有 哪些 ， 需 要 哪些 预备 知识 ? 

E: 本 书 主要 用 于 研究 生 水 平 的 神经 网 络 课程 。 但 是 ， 高 年 级 本 科学 生 可 以 在 具备 恰当 
背景 〈 即 具备 下 面 介绍 的 预备 知识 ) 的 基础 上 使 用 这 本 教材 。 而 且 ， 应 用 工程 师 和 科学 家 也 
可 以 自学 本 书 。 使 用 这 本 教材 成 功 学 习 神 经 计算 所 需 的 预备 知识 包括 : 线性 代数 和 微分 方程 
组 ， 最 好 具有 随机 变量 和 随机 过 程 领域 的 知识 ， 但 这 不 是 必要 的 ， 因 为 这 些 也 包含 在 本 书 附 
录 A 中 (内容 虽然 简单 但 也 足够 )。 

问 : 书 中 包含 什么 具体 内 容 ? 

答 : 本 书 分 成 两 个 主要 部 分 ， 细 节 如 下 。 附 录 A 包 含 神经 计算 的 数学 基础 。 


第 一 部 分 神经 计算 的 基本 概念 和 部 分 神经 网 络 体系 结构 及 其 学 习 规则 


包括 第 1 一 5 章 。 
第 1 章 为 读者 介绍 神经 网 络 和 神经 计算 的 基本 思想 ， 同 时 包括 神经 网 络 的 简单 历史 。 
第 2 章 首 先 讨 论 作为 神经 网 络 的 构建 模块 的 人 工 神经 元 的 基本 模型 。 接 着 讨论 激 锋 函数 的 
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不 同类 型 ， 然 后 ， 给 出 了 自 适 应 线性 单元 (Adaline) 和 多 重 自 适 应 线性 单元 (Madaline) 。 接 
着 给 出 了 最 小 均 方 (LMS) 算法 ， 然 后 详细 介绍 简单 感知 器 ， 简 单 讨 论 多 层 前 馈 感 知 器 。 然 
后 包含 一 些 基 本 的 学 习 规 则 。 这 些 学 习 规 则 是 训练 更 加 复杂 神经 网 络 结构 的 基础 。 第 2 章 最 后 
总 结 一 些 经 过 精心 挑选 的 数据 处 理 方法 。 如 果 读 者 对 人 工 神 经 网 络 不 熟悉 ， 则 应 该 学 习 第 2 章 
的 所 有 内 容 。 这 章 是 深入 理解 第 3 一 5 章 中 精 选 的 神经 网 络 结构 及 其 相关 算法 的 基础 。 

第 3 章 介绍 多 种 映射 神经 网 络 ， 以 联想 记忆 开始 ， 然 后 介绍 用 于 训练 多 层 前 馈 感 知 器 的 反 
向 传播 ， 对 反 向 传播 给 出 了 更 加 高 级 的 训练 方法 。 还 介绍 了 对 传 网 络 ， 本 章 最 后 给 出 径 向 基 
国 数 神经 网 络 。 

第 4 章 讨 论 部 分 自 组 织 神 经 网 络 。 这 包括 Kohonen 自 组 织 映 射 (SOM) 和 学 习 向 量 量化 
(LVQ)。 最 后 介绍 自 适应 共振 理论 (ART) 神经 网 络 ， 并 给 出 ART1 网 络 的 细节 。 

第 5 章 介 绍 递归 神经 网 络 和 时 间 前 馈 网 络 〈 它 也 是 递归 网 络 ) ， 介 绍 了 这 些 时 间 前 馈 神 经 
网 络 和 那些 不 是 多 层 前 馈 网 络 之 间 的 区 别 。 该 章 包 括 霍 普 非 尔 德 网 络 、 模 拟 退 火 、 玻 尔 兹 曼 
机 、 简 单 递归 神经 网 络 (SRN)、 时 延 网 络 和 分 布 式 时 滞 前 馈 神 经 网 络 。 


第 二 部 分 : 神经 计算 的 应 用 


包括 第 6~ 10 章 。 

第 6 章 介绍 用 于 求解 约束 最 优化 问题 的 部 分 神经 计算 方法 。 给 出 了 用 于 线性 规划 和 二 次 规 
划 问 题 的 神经 网 络 。 最 后 讨论 用 于 非 线 性 连续 约束 最 优化 问题 的 神经 网 络 。 这 章 包括 用 于 非 
线性 规划 惩罚 方法 和 障碍 函数 方法 的 神经 网 络 ， 也 包括 用 于 普通 的 和 增 广 的 拉 格 朗 日 乘 子 方 
法 的 神经 网 络 。 

第 7 章 讨 论 用 于 求解 各 种 矩阵 代数 问题 的 结构 化 神经 网 络 体系 结构 和 相关 的 学 习 规 则 。 给 
出 了 相当 多 的 重要 和 矩阵 分 解 (或 因子 分 解 ) 以 及 每 个 方法 的 神经 计算 解 。 也 给 出 了 应 用 神经 
计算 方法 实例 ， 如 矩阵 的 伪 闭 、 求 解 代数 李 雅 普 诺 夫 方程 和 求解 代数 里 卡 蒂 方程 。 

第 8 章 讨论 用 于 求解 线性 代数 方程 组 的 神经 计算 方法 。 这 些 方 法 包括 最 小 二 乘 神经 计算 方 
法 、 共 恩 梯 度 学 习 规则 、 广 义 鲁 棒 神 经 计算 方法 、 用 于 具有 未 定数 值 秩 的 不 适 定 问 题 的 正则 
化 方法 、 用 于 和 迭代 离散 时 间 方 法 的 矩阵 分 裂 和 总 体 最 小 二 乘 问题 。 还 给 出 了 求解 线性 代数 方 
程 组 的 L 范 数 和 范 数 的 神经 网 络 方法 。 

第 9 章 包含 许多 用 于 数据 统计 分 析 的 神经 网 络 体系 结构 ， 包 括 用 于 主 成 分 分 析 (PCA), 
主 成 分 回归 (PCR)、 经 典 的 最 小 二 乘 (CLS) 的 神经 网 络 ， 用 于 非 线性 PCA 和 重 棒 PCA 的 神 
经 网 络 ， 用 于 部 分 最 小 二 乘 回归 (PLSR) 的 神经 网 络 ， 以 及 用 于 和 鲁 棱 PLSR 的 神经 网 络 方法 。 

第 10 章 包含 信号 处 理应 用 、 线 性 和 非 线性 系统 辨识 、 非 线性 控制 和 估计 的 神经 网 络 ， 详 
细 解 释 了 许多 例子 。 也 包括 对 盲 源 分 离 使 用 神经 网 络 的 独立 成 分 分 析 (ICA)。 另 外 ， 介 绍 了 
快速 ICA 算 法 以 及 应 用 快速 ICA 算 法 分 离 数 字 图 像 的 例子 。 


本 书 的 主要 特征 


* 突出 大 多 数 的 训练 算法 ， 使 得 它们 很 容易 查找 。 

* 这 些 训练 方法 中 的 一 部 分 在 正文 中 给 出 了 它们 的 MATLAB 函 数 实现 。 代 码 相当 短 ， 只 
需 花费 几 分 钟 就 可 以 进入 MATLAB。 

。 另外， 广泛 使 用 MATLAB 神 经 网 络 工具 箱 ， 以 便 用 实验 说 明 一 些 神经 计算 的 概念 。 

* 本 书 的 一 些 问题 涉及 的 数据 保留 在 McGraw-Hill 高 等 教育 出 版 社 的 网 页 上 ， 并 且 很 容易 
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访问 到 。 本 书 的 URL 为 ;http://www.mhhe.com/ham。9 

“在 许多 章节 里 给 出 了 详细 的 例子 以 阑 明神 经 计算 的 概念 。 

“在 每 章 ( 除 第 1 章 外 ) 的 最 后 都 给 出 了 涉及 广泛 内 容 的 大 量 习 题 。 一 些 习 题 需要 使 用 
MATLAB 和 MATLAB 神 经 网 络 工具 箱 。 一 些 情 况 下 提供 了 MATLAB 函 数 的 代码 。 

。 附 录 人 A 包含 神经 计算 的 综合 数学 基础 。 


Fredric M. Ham 
Ivica Kostanic 








O 本 网 址 上 的 一 些 教 辅 资源 (包括 习题 答案 等 ) 只 提供 给 采用 本 书 作 为 教材 的 老师 ， 需 要 者 请 与 McGraw-Hill 
公司 北京 代表 处 联系 ,联系 方式 见 书 后 所 附 的 教学 服务 沟通 表 。 一 一 编辑 注 
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重要 符号 和 算 符 


正定 矩阵 4 

半 正 定 〈 非 负 定 ) 矩阵 4 
负 定 矩阵 4 

半 负 定 〈 非 正定 ) 年 阵 4 
代表 和 矩阵 4 的 第 k 列 
代表 和 矩阵 4 的 第 k 行 
集合 4 的 补 

和 矩阵 4 的 ; 行 / 列 元 素 
复数 量 的 辐 角 

伴随 算 子 


校正 模型 
偏 置 


复数 集 
fan x mhe 
Sinxn (i) E 
Si nS Fi [a] 
复 ? 维 行 向 量 
Anena (TRII) 
n 维 复 向 量 空间 
自 协 方差 函数 
th Fy 22 
RAFAT 
REAR RHR 


能 量变 化 


挑选 方 阵 对 角 元 素 的 算 子 


克 罗 内 克 A 
行列 式 


指数 
期 望 算 子 
AER ea Be 
能 量 函 数 
指数 


域 

二 值 S 形 激活 函数 
线性 激活 函数 

logistic FRA 

硬 限 幅 激活 函数 
Huber ef Bt 

WIE DISH BE th A 
M 估 计 跨 函数 
Tatwar 国 数 
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对 称 硬 限 幅 激活 函数 
饱和 线性 激活 函数 
对 称 饱 和 线性 激活 函数 


二 值 S 形 激活 函数 的 导数 
logistic RAY | Br 

双 曲 正切 S 形 激活 函数 的 导数 
Huber 国 数 的 导数 

M 佑 计 器 函数 的 导数 
Talwar 国 数 的 导数 
SAH 

遗忘 因子 或 泄漏 因子 


因子 的 最 优 数 


1 xn 单位 矩阵 
适当 维 数 的 单位 矩阵 
下 确 界 


代价 函数 
FE HJ Ee 


离散 时 间 指 标 
峭 度 算 子 


SEWER RR 

FAG HT 
HED, ARO RLE, REKAH 
学 习 信号 

特征 值 或 者 拉 格 朗 日 乘 子 


随机 过 程 的 均值 

向 量 随机 过 程 的 均值 向 量 
模糊 交 

模糊 并 

最 小 值 算 子 

最 大 值 算 子 

学 习 率 参数 


零 维 ( 数 ) 
非 线 性 映射 
在 7 的 高 阶 效应 


采样 频率 ， Tt 
sec 

概率 

概率 密度 函数 





sexe 
porn 

prx! 

R: xn 

R” 

CR", R) 
(RCs), Rs)) 
B 

Rx 
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Thinary 
Ts 








概率 分 布 函 数 
HK BB 
回归 矩阵 
原型 记忆 


实数 集 

Xn x mB 
Sinxn (H) 阵 
实 n 维 列 向 量 

实 n 维 行 向 量 
实 n 维 向 量 ( 行 或 列 ) 
实 n 维 向 量 空间 

n 维 有 理 疝 量 空间 
瑞 利 商 

相关 和 矩阵 

自 相关 函数 

时 间 自 相关 函数 

和 矩阵 秩 或 警戒 参数 
相关 系数 


功能 谱 密 度 和 矩阵 

概率 空间 或 采样 空间 

上 确 界 

符号 函数 

标准 偏差 ， 奇 异 值 ， 扩 展 参 数 或 正则 化 参数 
方差 . 
固定 的 稳定 点 


连续 时 间 

和 矩阵 的 迹 

和 矩阵 的 迹 

温度 

闵 值 逻辑 算 子 

采样 周期 

对 所 有 可 能 构 形 求 和 
A 

参数 向 量 


状态 向 量 * 的 李 雅 普 诺 夫 函 数 

方差 算 子 

通过 “堆栈 堆放 ”一 个 矩阵 的 列 形成 一 个 向 量 的 算 符 
选择 一 个 方 阵 的 主 对 角 元 素 的 算 符 

向 量 集 

向 量 (线性 ) 空间 

随机 变量 X 的 均值 

zx 的 非 或 补 

Vi] Hak xy A Pe ee Si AE 

两 个 向 量 x 和 y 的 内 积 
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(A) 
(A)! 
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两 个 向 量 x 和 ?的 内 积 
两 个 向 量 x 和 y 的 外 积 
单位 延迟 算 子 


矩阵 4 的 转 置 

矩阵 4 的 逆 

矩阵 4 的 平方 根 

和 撼 阵 4 平方 根 的 转 置 
SERA HY Pot 

‘SANS HH E 

矩阵 4 的 埃 尔 米 特 转 置 
矩阵 4 的 行列 式 

复数 量 的 幅度 或 绝对 值 
复数 量 的 角度 或 辐 度 

FERPA RIT IS 

权 值 向 量变 化 量 

梯度 算 子 

函数 e 关 于 向 量 x 的 梯度 

向 量 函 数 / 关 于 向 量 *+ 的 雅 可 比 第 阵 
拉 普 拉 斯 算 子 

函数 /关于 向 量 + 的 黑 塞 和 矩阵 
克 罗 内 克 求 和 或 者 或 逻辑 符号 
克 罗 内 克 乘 积 

Khatri-Rao 乘 积 


与 〈 也 是 MIN 运 算 符 ) 

或 (也 是 MAX 运 算 符 ) 

空 集 

AM 

映射 到 

向 量 x 的 已 范 数 

向 量 x 的 L 范 数 〈 绝 对 值 范 数 ) 

向 量 x 的 已 范 数 〈 欧 几 里 得 范 数 ) 

向 量 x 的 L- 范 数 〈 切 比 雪 夫 范 数 ) 

向 量 x 的 L_。 范 数 ( 负 无 穷 大 范 数 ) 

向 量 x 的 内 积 生成 范 数 

向 量 * 的 加 权 欧 几 里 得 范 数 

和 矩阵 4 的 上, 范 数 

矩阵 4 的 范 数 ( 最 大 的 列 绝对 值 求 和 ) 
和 矩阵 4 的 谱 范 数 

PEARL JER (最 大 的 行 绝对 值 求 和 ) 
矩阵 4 的 弗 罗 贝 尼 乌 斯 范 数 
矩阵 4 的 谱 半 径 
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Adaline 
AIC 
AND 
ANN 
APEX 


DPC 
DTLFNN 


EVD 


FFPA 
FFT 
FIR 
FMMC 


GHA 
GSVD 


IC 
ICA 
ILS 
isL 


KO 


LAPART 
LDU 
LMBP 
LMS 

LP 

LVQ 
LSR 

LU 


重要 缩写 词 


adaptive linear element， 自 适应 线性 单元 

Akaike’s information theoretic criterion, Akaike 的 信息 论 准 则 

AND logic function ， 与 逻辑 函数 

artificial neural network ， 人 工 神 经 网 络 

adaptive principal component extraction， 自 适应 主 成 分 提取 

autoregressive moving average， 自 回归 请 动 平均 

autoregressive moving average with exogenous inputs, B.A Sb AB BV ey 


bit error rate ， 位 误差 率 
Broyden-Fletcher-Goldfarb-Shanno 

bounded-input bounded-output， 有 界 输入 有 界 输 出 
backpropagation, 反 向 传播 


content addressable memory, 按 内 容 可 寻 址 记忆 
classical least-squares， 经 典 的 最 小 二 乘 
constrained PCA, #JRPCA 


direction of arrival, 到 达 方 向 
discrete Picard condition， 离 散 皮卡 条 件 
distributed time lagged feedforward neural network， 分 布 式 的 时 沾 前 馈 神经 网 络 


eigenvalue decomposition ， 特 征 值 分 解 


fast fixed-point algorithm， 快 速 的 固定 点 算法 
fast Fourier transform， 快 速 侍 里 叶 变 

finite impulse response， 有 限 冲 击 响应 

fuzzy min-max classifier， 模 糊 最 小 -最 大 分 类 器 


generalized Hebbian algorithm， 广 义 Hebb 算 法 
generalized SVD， 广 义 SVD 


independent component， 独 立成 分 
independent component analysis ， 独 立成 分 分 析 
inverse least squares, 逆 最 小 二 乘 


in the sense of Lyapunov， 李 雅 普 诺 夫 意 义 下 


Karhunen-Oja 


laterally primed adaptive resonance theory， 侧 向 初始 自 适 应 共振 理论 
lower diagonal upper matrix decomposition, 4ERERJ = faLDU4 fF 
Levenberg-Marquardt backpropagation, Levenberg-Marquardt ix lel #48 
least mean-square ， 最 小 均 方 

linear programming， 线 性 规划 

learning vector quantization， 学 习 向 量 量 化 

linear shift register， 线 性 移 位 寄存 器 

lower upper matrix decomposition， 和 矩阵 的 三 角 LU 分 解 
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(28) 
Madaline multiple Adaline ， 多 重 自 适应 线性 单元 
MAJ majority logic function, ZEK k A 
MAW mountain associated wave, Wig 
MDL minimum description length， 最 小 描述 长 度 
MIMO multiple-input multiple-output， 多 输入 多 输出 
MLP multilayer perceptron， 多 层 感 知 器 
MLP NN multilayer perceptron neural network ， 多 层 感知 器 神经 网 络 
MRAC model reference adaptive control， 模 型 参考 自 适 应 控制 
MRI Madaline rule 1, Madaline #} Ml] I 
MRII Madaline rule II, Madaline 规则 II 
MSE mean square error, H} RÆ 
MUSIC multiple signal classification， 多 信号 分 类 
NARMA nonlinear autoregressive moving average ， 非 线性 自卫 归 请 动 平均 
NARMAX nonlinear autoregressive moving average with exogenous inputs, 具有 外 部 输入 的 非 线性 
自 回归 请 动 平 均 
NARX nonlinear autoregressive with exogenous inputs， 具 有 外 部 输入 的 非 线性 自 回 归 
NGE nested generalized exemplar, KEJ XIE 
NIPALS nonlinear iterative partial least squares, JER TEE tH RO h iR 
NIR near-infrared， 近 红外 
NLPCA nonlinear PCA ， 非 线性 PCA 
NN, neural network controller， 神 经 网 络 控制 器 
NN, neural network to perform system identification， 执 行 系统 辨识 的 神经 网 络 
NOR NOT-OR logic function, JERE Ht A A 
NP nonlinear programming or nondeterministic polynomial (time complete) ， 非 线性 规划 或 


非 确定 多 项 式 (时 间 完 全 ) 


OLS orthogonal least-squares， 正 交 最 小 二 乘 

OR OR logic function， 或 逻辑 函数 

PCA principal component analysis， 主 成 分 分 析 

PCR principal component regression， 主 成 分 回归 

PLSNET partial least-squares regression neural network, 部 分 最 小 二 乘 回 归 神 经 网 络 
PLSNET-C PLSNET-calibration ，PLSNET 校 准 

PLSNET-P PLSNET-prediction, PLSNET 预 测 

PLSR partial least-squares regression， 部 分 最 小 二 乘 回归 

PN pseudo noise, (HUR 

PRESS predicted residual error sum of squares, 预测 残 量 误 差 平方 和 
QP quadratic programming， 二 次 规划 

RBF radial basis function， 径 向 基 国 数 

RBF NN radial basis function neural network, 42i] 4 eH Beth AA AS 
RLS recursive least-squares， 递 归 最 小 二 乘 

RMS root-mean-square， 均 方 根 

ROB robust， 健 壮 ， 重 棒 


RWLS recursive weighted least-squares ， 递 归 加 权 最 小 二 乘 
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SEC standard error of calibration ， 校 正 的 标准 误差 
SEE standard error of estimation ， 估 计 的 标准 误差 
SEP standard error of prediction， 预 而 的 标准 误差 
SISO single-input single-output， 单 输入 单 输出 
SGA stochastic gradient ascent， 随 机 梯度 上 升 
SNR signal-to-noise ratio ， 信 噪 比 

SOM self-organizing map， 自 组 织 映射 

SOR successive overrelaxation， 逐 次 超 松弛 

SRN simple recurrent network, ， 简 单 递 归 网 络 

SSE sum-squared error， 误 差 平方 和 

SVD singular value decomposition, 2) FAE fF 
TDNN time delay neural network, ， 时 间 延 迟 神经 网 络 
TLS total least-squares， 总 体 最 小 二 乘 

TLU threshold logic unit, IEE $4490 

TSVD truncated SVD， 截 断 SVD 

VOL volcano， 火 山 

wss wide-sense stationary ， 宽 平稳 的 

XNOR exclusive NOR logic function, RIE #8 aw 


XOR exclusive OR logic function, RIKZ $F% 
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第 1 章 神经 计算 概述 


1.1 神经 计算 是 什么 


神经 计算 与 信息 处 理 有 关 。 与 相对 应 的 程序 计算 不 同 ， 用 神经 计算 方法 进行 信息 处 理 的 
方法 是 : 首先 在 人 工 神经 网 络 (或 神经 网 络 )s 体系 结构 内 进行 学 习 ， 这 个 体系 结构 按照 学 习 
规则 对 输入 作出 相应 的 响应 。 在 神经 网 络 已 经 学 会 需要 知道 什么 以 后 ， 训 练 后 的 神经 网 络 依 
据 特 定 应 用 可 以 用 来 执行 特定 的 任务 。 神 经 网 络 具有 从 环境 中 学 习 的 能 力 和 以 类 似 生物 的 交 
互 方式 适应 环境 的 能 力 。 确 实 ， 因 为 存在 用 人 工 神经 网 络 来 执行 某 些 功能 的 巨大 可 能 性 ， 使 
得 用 人 工 神经 网 络 (在 一 定 程度 上 ) 能 够 模仿 与 生物 类 似 的 功能 ， 这 是 一 个 激动 人 心 的 前 景 。 

例如 ， 一 个 人 能 够 相当 好 地 完成 模式 识别 任务 。 我 们 在 街 上 “看 见 ”一 辆 经 过 的 汽车 ， 
它 “ 吸 引 我 们 的 注意 力 ”。 可 能 汽车 正 飞快 地 行驶 ， 但 我 们 能 够 识别 车 体式 样 的 突出 特征 ， 把 
它 和 我 们 头脑 中 记忆 的 一 辆 1984 年 的 红色 法 拉 利 跑车 (Ferrari Testarossa) 的 图 像 联想 在 一 起 。 
这 个 例子 清楚 地 说 明 我 们 仅仅 捕获 汽车 的 瞬间 状态 ， 就 足以 正确 地 识别 车 型 。 我 们 认为 这 个 
过 程 是 理所当然 的 ， 然 而 ， 它 是 非常 复杂 的 。 我 们 为 了 正确 地 识别 车 型 而 细 察 车 的 停放 和 车 
每 分 钟 的 详情 并 不 是 必要 的 。 正 相反 ， 对 运动 中 的 汽车 的 快速 一 着 (如 观察 它 的 独特 一 侧 散 
热 窗 和 后 腿 站 立 的 马 形 商标 ) 是 足够 做 出 正确 辨识 的 。 这 类 模式 识别 能 够 由 人 工 神经 网 络 来 
完成 ， 特 别 由 一 个 霍 普 非 尔 德 (Hopfield) (参考 5.3 节 ) 神经 网 络 来 完成 。 这 种 网 络 的 有 力 特 
征 之 一 是 能 够 从 给 出 的 局 部 输入 数据 回想 起 一 个 存储 记忆 的 能 力 ， 例 如 ， 一 侧 散热 窗 和 在 红 
色 法 拉 利 跑车 的 站 立 的 马 形 商标 。 

虽然 人 不 如 数字 计算 机 快 或 精确 (例如 ， 一 台数 字 计 算 机 在 做 2 个 7 位 数 乘法 时 比 人 快 得 
多 )， 但 是 人 在 感知 和 识别 自然 界 场景 中 感 兴趣 的 物体 、 解 释 自然 语言 和 其 他 许多 自然 界 的 认 
知 任务 上 比 数字 计算 机 好 得 多 。 人 们 执行 这 些 任务 为 什么 比 数 字 计 算 机 好 得 多 ? 虽然 人 们 仍 
旧 从 总 体 上 不 知道 这 个 问题 的 答案 ， 但 是 人 们 已 经 了 解 到 足够 的 知识 使 得 人 们 执行 得 非常 好 
的 某 些 功 能 能 够 被 人 工 神经 网 络 模仿 。 例 如 ， 为 什么 人 们 在 复杂 情境 下 能 更 好 地 识别 物体 ? 
原因 之 一 是 由 于 人 脑 的 组 织 方式 。 人 脑 结构 适用 于 解决 非常 复杂 的 问题 ， 而 数字 计算 机 解决 
这 些 复杂 问题 很 困 维 ， 需 要 很 长 时 间 的 计算 。 人 脑 的 基本 处 理 单 元 是 神经 元 (神经 细胞 )， 而 
在 数字 计算 机 中 用 于 计算 的 单元 是 硅 做 的 逻辑 门 。 神 经 元 大 概 比 硅 逻 辑 门 事件 慢 六 个 数量 级 。 
然而 ， 人 脑 通过 以 一 种 大 量 互 连 的 高 度 并 行 结构 进行 数据 处 理 以 弥补 神经 元 相对 较 慢 的 运算 
速度 。 据 估计 人 脑 包含 有 大 约 10' 数量级 的 神经 元 和 大 约 比 神经 元 数量 级 的 3 倍 还 多 的 连接 或 
突 触 。 因 此 ， 人 脑 是 一 个 自 适 应 的 、 非 线性 的 和 并 行 的 计算 机 ， 能 组 织 神经 元 完成 特定 任务 。 
用 神经 计算 系统 可 以 很 粗略 地 模拟 人 脑 。 虽 然 对 人 脑 建 模 领域 的 研究 很 有 趣 并 且 激 动人 心 ， 
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2 第 一 部 分 囊 经 于 渭 的 基本 极 念 和 次 分 神经 网 络 体系 结构 及 其 学 习 规 出 








但 是 这 不 是 本 书 的 要 旨 。1.3 节 给 出 了 生物 神经 网 络 的 总 体 概述 ， 然 而 ， 这 样 做 是 为 了 内 容 完 
整 性 ， 并 给 出 一 些 与 人 工 神经 网 络 有 直接 关系 的 神经 生物 概念 。 我 们 从 工程 师 的 角度 来 描述 
人 工 神 经 网 络 ， 然 而 ， 这 些 素材 对 科学 家 和 工程 师 都 可 用 。 因 此 ， 本 书 不 仅 适用 于 那些 想 了 
解 用 于 神经 计算 的 人 工 神经 网 络 的 基本 原理 的 读者 ， 也 适用 于 那些 希望 能 应 用 各 种 神经 计算 
技术 解决 科学 和 工程 中 的 问题 的 读者 。 

通过 例子 学 习 (learn) 和 泛 化 (generalize) 的 能 力 是 人 工 神经 网 络 的 主要 特征 。 根 据 学 
习 规则 (算法 ) ， 通 过 给 出 一 些 必须 学 会 的 模式 来 训练 神经 网 络 。 在 上 面 的 例子 中 ， 首 先 能 够 
认 出 红色 法 拉 利 跑车 ， 意 味 着 在 以 前 已 经 观察 到 这 类 汽车 至 少 一 次 ， 并 且 知 道 它 是 什么 车 型 
(训练 过 程 ) 。 学 习 过 程 使 得 神经 网 络 和 数字 计算 机 处 理 信息 不 一 样 ， 后 者 需要 被 程序 化 。 假 
如 神经 网 络 已 经 被 泛 化 ， 这 就 意味 着 神经 网 络 能 把 输入 模式 分 类 为 一 个 可 接受 的 精确 水 平 ， 
即使 这 些 输入 模式 在 训练 过 程 中 从 来 没有 使 用 过 。 上 面 例 子 中 的 红色 法 拉 利 跑车 ， 也 许 识别 
者 以 前 从 未 看 见 过 ， 但 是 曾经 观察 过 与 它 类 似 的 其 他 车 。 

人 工 神经 网 络 将 在 训练 过 程 中 学 到 的 知识 存储 在 神经 元 的 突 触 权 值 中 。 任 何人 工 神经 网 
络 的 构件 是 人 工 神 经 元 ?。 怎 样 组 织 神经 元 的 网 络 ， 如 何 规 定 突 触 权 值 调整 的 学 习 规 则 ， 以 
及 如 何 确 定 训练 过 程 什么 时 候 完 成 的 标准 ， 所 有 这 些 都 表征 了 特定 类 型 的 神经 网 络 。 神 经 网 
络 的 种 类 有 很 多 ， 它 们 具有 不 同 程度 的 复杂 性 ， 然 而 ， 各 种 神经 网 络 具 有 相似 的 特征 。 比 如 ， 
使 之 能 快速 计算 的 基本 并 行 计 算 结 构 可 能 是 几乎 所 有 神经 网 络 类 型 的 共同 点 。 大 多 数 人 工 神 
经 结构 具有 多 个 高 度 互联 的 (很 多 突 触 ) 神经 元 ， 和 相对 应 的 生物 神经 元 一 样 。 神 经 元 输出 
中 的 非 线性 也 是 一 个 神经 网 络 中 的 显著 部 分 ， 虽 然 也 有 几 种 神经 网 络 类 型 是 “线性 ”结构 的 。 
例如 ， 在 第 7 章 中 给 出 的 结构 化 网 络 都 是 线性 网 络 。 

现在 ， 神 经 网 络 的 领域 非常 宽广 且 涉 及 多 种 学 科 ， 吸 引 了 许多 不 同 领域 的 研究 者 的 兴 
趣 ， 比 如 ， 工 程 学 (包含 生物 医学 工程 )、 物 理学 、 神 经 学 、 心 理学 、 医 学 、 数 学 、 计 算 机 科 
学 、 化 学 和 经 济 学 。 人 工 神 经 网 络 为 解决 复杂 问题 提供 了 一 个 神经 计算 的 方法 ， 而 该 问题 用 
其 他 方法 可 能 得 不 到 一 个 易 处 理 的 解决 办 法 。 神 经 网 络 的 应 用 包括 (但 不 局 限于 ): 预测 与 预 
报 、 联 想 记 忆 、 国 数 逼 近 、 聚 类 、 数 据 压缩 、 语 音 识别 与 合成 、 非 线性 系统 建 模 、 非 线性 控 
fil, ERDA., FEHR. AAI. BRR RM, PRO RAR ABR. FR 
神经 计算 方法 解决 某 些 问题 有 许多 优点 ， 比 如 具有 容错 能 力 。 神 经 网 络 的 硬件 实现 往往 具有 
内 在 的 容错 能 力 。 假 如 神经 网 络 结构 有 一 个 神经 元 损坏 ， 或 者 是 连接 损坏 ， 整 个 网 络 的 性 能 
通常 只 会 受到 这 种 损害 的 轻微 影响 。 这 对 于 神经 网 络 的 鲁 棒 特性 是 发 挥 作用 的 因素 。 因 为 信 
息 分 布 在 神经 网 络 中 ， 所 以 能 使 得 神经 网 络 完全 失败 的 损害 应 该 是 非常 严重 的 〈 即 许多 被 损 
害 的 神经 元 和 /或 连接 ) 。 如 上 所 述 ， 人 工 神 经 元 通常 是 非 线 性 的 ， 因 此 ， 网 络 自身 是 一 个 非 
线性 系统 。 许 多 时 候 一 个 非 线 性 系统 被 视 为 灾难 性 的 ， 然 而 ， 神 经 网 络 的 非 线 性 是 非常 重要 
的 特征 ， 尤 其 是 当 相 关 的 物理 过 程 是 完全 非 线 性 的 ， 并 且 将 测量 该 系统 得 到 的 量 值 用 于 训练 
神经 网 络 。 神 经 网 络 的 自 适应 特性 也 是 一 个 重要 性 质 。 由 于 网 络 的 突 触 权 值 的 自 适应 性 ， 网 
络 能 够 和 它 的 环境 相互 作用 并 且 做 出 响应 。 因 此 ， 如 果 在 最 初 的 训练 后 环境 改变 了 ， 网 络 能 
对 环境 变化 做 出 响应 ， 并 且 能 进行 基本 的 重新 自我 训练 。 更 进一步 ， 对 于 非 稳定 环境 ， 神 经 
网 络 能 设计 成 实时 执行 自身 权 值 的 自 适应 。 神 经 网 络 擅长 于 执行 如 像 自 适应 性 控制 、 自 适应 
模式 分 类 和 自 适应 信号 处 理 这 样 的 功能 。 因 此 ， 在 本 书 中 ， 许 多 内 容 描 述 了 自 适 应 信号 处 理 
的 方法 。 


”人工 神经 元 也 称 作 (信息 ) 处 理 元 素 、 单 元 、 细 胞 、 节 点 和 神经 节 (neurodes), 
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我 们 已 经 定义 了 人 工 神 经 网 络 是 什么 ， 以 及 利用 神经 计算 方法 解决 某 些 问题 的 优点 ， 下 
面 我 们 将 给 出 一 些 有 关 神 经 网 络 领域 的 历史 背景 。 这 不 是 关于 神经 网 络 历史 的 综合 论述 ， 仅 
希望 读者 适当 了 解 本 书 内 容 的 背景 。 


1.2 神经 计算 的 发 展 历史 


本 节 并 不 打算 给 出 神经 网 络 的 完整 历史 ， 而 是 介绍 一 些 主要 的 研究 成 果 ， 这 些 成 果 为 其 
他 人 开辟 了 道路 。 早 期 重要 成 果 的 概览 给 读者 提供 如 何 认 识 在 过 去 岁月 中 某 些 成 就 导致 该 领 
域 的 发 展 。 早 期 人 工 神经 网 络 研究 的 结果 在 参考 资料 [1-4] 中 可 以 找到 。 

历史 概览 

。 McCulioch 和 Pitts, 1943 

据说 神经 网 络 的 近代 史 开 始 于 Warren S. McCulloch 和 Walter Pitts 1943[5] 的 工作 。 他 们 给 
出 了 5 种 支配 神经 元 运行 的 假设 。 这 些 假设 描述 了 现在 熟知 的 McCulloch-Pitts 神 经 元 。 这 些 神 
经 元 没有 训练 ， 然 而 ， 能 够 实现 某 些 逻 辑 功 能 。McCulloch-Pitts 神 经 元 模型 为 神经 网 络 未 来 
的 发 展 打 下 了 基础 。 

« Hebb, 1949 

在 1949[6] 的 文章 中 Donald Hebb 描 述 了 一 个 从 神经 生物 观点 假设 的 学 习 过 程 。Hebb 认 为 
信息 存储 在 神经 元 之 间 的 连接 中 ， 并 且 提 出 一 个 调节 连接 权 值 的 学 习 策略 。 这 是 第 一 次 给 出 
允许 调节 突 触 权 值 的 学 习 规 则 ， 对 该 领域 后 来 的 工作 具有 重要 的 影响 。 

«von Neumann, 1958 

John von Neumann 在 数字 计算 机 的 发 展 方面 起 了 重要 作用 ， 是 20 世 纪 前 期 科学 史上 的 重 
要 人 物 之 一 。 他 也 是 曼哈顿 工程 的 骨干 成 员 。 他 从 计算 机 的 最 早 时 期 开始 就 看 到 了 数字 计算 
机 与 人 脑 的 带 在 相似 性 [71。 例 如 ， 他 提 及 在 生物 神经 系统 中 记忆 的 重要 性 如 同 在 电子 系统 中 
一 样 。 

« Rosenblatt, 1958 

#£195848, Frank Rosenblatt 发 展 了 感知 器 (perceptron) 的 最 初 概念 [8]。 它 是 第 一 个 准确 
定义 的 面向 计算 的 神经 网 络 。 它 的 复杂 的 适应 行为 引起 了 工程 师 的 极 大 注意 。 它 是 一 个 可 以 
训练 用 来 区 分 某 些 模式 的 机 器 。 

。Widrow 和 Hoff, 1960 

Bernard Widrow 的 Adaline ( 自 适 应 线性 单元 ，adaptive linear element) 使 用 最 小 均 方 
(LMS) 学 习 规 则 [9] 来 训练 ， 与 Rosenblatt 的 感知 器 极为 相似 。Adaline 推 广 至 多 个 Adaline 
(Madaline) 。Adaline 和 Madaline 有 许多 应 用 ， 如 在 自 适 应 控制 和 模式 识别 方面 。 

。 Minsky 和 Papert, 1969 

在 1969 年 (以 及 之 后 数 年 )，Marvin Minsky 和 Seymour Papert 延缓 了 神经 网 络 的 研究 ， 
当年 在 他 们 的 《Perceptrons》( 感 知 器 ) [10] 书 中 指出 单 层 神经 网 络 能 力 有 限 。 一 个 这 样 的 例 
FERR (XOR) 问题 。Rosenblatt 已 经 研究 了 具有 多 层 神经 元 的 体系 结构 ， 并 且 相 信 它 们 能 
够 克服 简单 感知 器 的 局 限 性 ， 然 而 ， 当 时 不 知道 学 习 规 则 [11]。Minsky 和 Papert 怀 疑 能 够 发 现 
这 种 学 习 规 则 。 

e Kohonen, 1972 和 Anderson，1972 

尽管 在 20 世 纪 70 年 代 神 经 网 络 研究 缓慢 ， 仍 有 人 继续 研究 。 最 主要 的 领域 之 一 是 按 内 容 
可 寻 址 联想 记忆 。 在 1972 年 ，Teuvo Kohonen 发 表 了 关于 相关 和 矩阵 记忆 的 论文 [12]。 同 年 ， 
James Anderson 独 自 提 出 了 和 Kohonen 同 样 的 模型 [13]。 





4 PRD APUK KRAMER ARDA A I R RRE TAM 








e von der Malsburg, 1973 

Christoph von der Malsburg 的 开创 性 工作 研究 具有 突 触 修正 规则 的 网 络 ， 该 规则 可 以 产生 
一 个 能 显示 自我 修正 和 组 织 能 力 的 模型 皮层 [14]。 他 的 工作 受到 20 世 纪 70 年 代 早 期 动物 实验 
的 启发 。 

e Werbos, 1974 

在 1974[15] 年 ，Werbos 给 出 了 用 于 训练 多 层 前 馈 感 知 器 的 反 向 传播 算法 的 首次 描述 。 

。 LittleA 和 mShaw, 1975 

Little 和 Shaw 在 论文 [16] 中 描述 了 使 用 概率 神经 元 模型 代替 确定 性 神经 元 模型 的 神经 网 络 。 

。 Lee 和 Lee, 1975 

Lee 和 和 Lee 介绍 了 模糊 McCulloch-Pitts 神 经 元 模型 [17]。 

e Grossberg, 1976 

在 1976 年 ，Grossberg 受 皮层 组 织 的 发 展 生 理学 启发 而 发 表 的 一 篇 文章 提出 了 一 种 理论 分 
析 [18]。 他 陈述 了 视觉 皮层 的 特征 探测 器 响应 环境 而 发 展 和 变化 的 有 力 证 据 。 

« Amari, 1977 

Amari 在 1977[19] 论 文中 讨论 了 模式 联想 器 (pattern associator) 。 在 一 种 类 型 的 联想 器 中 ， 
输入 模式 激发 一 个 适当 的 、 但 不 同 的 输出 模式 。 在 另 一 种 类 型 的 联想 器 中 ， 使 用 他 称 为 概念 
形成 (concept-forming) 的 网 络 (这 些 是 递归 网 络 )， 输 入 和 输出 模式 是 相同 模式 ， 并 且 输 出 
模式 能 够 反馈 到 网 络 的 输入 。 

e Hopfield, 1982 

据说 , 神经 网 络 的 现代 史 开始 于 John Hopfield[20] ( 诺 贝 尔 物理 学 奖 获 得 者 ) 论文 的 发 表 。 
Hopfield 复 杂 而 综合 地 描述 了 递归 神经 网 络 的 运行 方式 及 其 功能 。 网 络 能 够 在 动态 稳定 的 环 
境 下 存储 信息 (如 模式 )， 并 且 能 够 执行 数据 存储 和 检索 的 功能 。 对 网 络 给 定 一 个 有 噪声 的 输 
入 ,尽管 革 现 给 网 络 的 是 模式 的 不 完整 ( 受 损 的 ) 版 本 ， 但 网 络 能 够 恰当 地 检索 出 存储 在 记 
忆 中 的 相关 模式 。 

。 Kohonen, 1982 

{E1982[21]F, Teuvo Kohonen 介 绍 了 自 组 织 的 特征 映射 。 它 是 一 个 无 监督 的 、 竞 争 学 习 
的 豪 类 网 络 ， 同 一 时 刻 只 有 一 个 神经 元 (或 一 组 中 只 有 一 个 神经 元 ) 是 “激活 ”的 。 

。 Oja, 1982 

Erkki Oja 介 绍 了 如 何 使 用 规范 的 Hebb 学 习 规则 来 训练 单个 线性 神经 元 ， 使 它 成 为 一 个 主 
成 分 分 析 器 [22]。 这 个 神经 元 能 够 从 输入 数据 中 自 适应 地 提取 第 一 主 特征 向 量 。 他 的 工作 的 推 
广 导 致 不 同 的 神经 网 络 方法 用 于 自 适 应 地 估计 多 重 主 特征 向 量 。 

。 Fukushima, Miyake 和 Ito, 1983 

神经 认 知 机 (neocognitron) 是 由 Fukushima、Miyake 和 Ito 开 发 的 [23]， 用 于 字符 识别 。 

«Kirkpatrick, Gelatt 和 和 Vecchi, 1983 

虽然 Kirkpatrick、Gelatt 和 Vecchi 的 论文 [24] 并 不 是 一 篇 神经 网 络 的 论文 ， 但 它 为 
Boltzmann 机 做 好 了 铺垫 。 

e Kampfner 和 Conrad,1983 

Kampfner 和 Conrad 研 究 了 用 于 神经 网 络 训练 的 进化 计算 方法 [25]。 进 化 计算 的 历史 在 
D. B. Fogel 的 著作 [26] 中 有 详细 的 阐述 。 

e Ackley, Hinton 和 Sejnowski, 1985 

Ackley、Hinton 和 Sejnowski 在 1985[27] 给 出 了 Boltzmann 机 的 学 习 算 法 。 
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。 Parker, 19854fLeCun, 1985 

反 疝 传播 训练 算法 分 别 被 Parker[28] 和 LeCunf29] 独 立 发 现 。 

。 Herault, Jutten 和 Ans, 1985 

Herault、Jutten 和 Ans 将 神经 网 络 用 于 独立 源 信号 的 宵 分 离 [301]， 即 用 于 宵 源 分 离 的 独立 
成 分 分 析 (independent-component analysis,ICA) 的 神经 网 络 实现 [31]。 

。 Rumelhart, Hinton 和 Williams,1986 

反 向 传播 训练 算法 分 别 被 Rumelhart、Hinton 及 Williams 独 立 发 现 [32,33] 。 

。 Carpenter 和 Grossberg, 1987 

Carpenter 和 Grossberg 在 自 适应 共振 理论 (adaptive resonance theory, ART) 基础 上 发 展 了 
自 组 织 神经 网 络 [34]。 

。 Sivilotti, Mahowald 和 Mead,1987 

神经 网 络 的 第 一 次 VLSI 实 现 归功 于 Sivilotti、Mahowald 和 Mead[35]。 

。 Broomhead 和 Lowe,1988 

在 神经 网 络 设计 中 第 一 次 探索 径 向 基 溯 数 归 功 于 Broomhead 和 Lowe[36j。 

McCulloch-Pitts 神 经 元 

正如 前 文 所 述 ， 在 神经 网 络 研究 的 开头 ，1943 年 Warren S. McCulloch 和 Walter Pitts 的 
工作 本 质 上 开启 了 神经 网 络 研究 的 新 时 代 。 因 此 ， 以 他 们 的 神经 元 概念 作为 开始 看 起 来 是 适 
当 的 。 

McCulloch-Pitts 神 经 元 是 一 个 非常 简单 的 双 态 (two-state) 装置 。 它 为 开 或 关 ， 人 也 就 是 说 ， 
输出 是 二 值 的 。 一 个 特定 神经 元 的 输出 不 能 连接 其 他 神经 元 的 输出 ， 然 而 ， 它 能 分 支 到 其 他 
神经 元 和 作为 该 神经 元 的 输入 而 终止 ， 或 它 自 身 终 止 。 以 下 两 种 类 型 的 终止 都 是 允许 的 : 兴 
奋 性 的 (excitatory) 输入 或 抑制 性 的 (inhibitory) 输入 。 一 个 神经 元 可 以 有 任意 数目 的 输入 。 
神经 元 无 论 是 开 CORK, firing) 还 是 关 (WH, quiet), M THITHI A (threshold), 
下 列 是 对 简单 神经 元 做 出 的 物理 假设 [5]: 

1. 神经 元 活动 是 一 个 全 或 无 (all-or-nothing) 的 过 程 ， 即 神经 元 的 激活 是 二 值 的 。 在 神经 
元 “点 火 ” 的 任何 离散 时 间 步 ， 激 活 是 1， 当 它 是 “寂静 ”的 时 间 步 ， 激 活 是 0。 这 是 神经 元 
两 种 可 能 的 状态 。 

2. 为 了 使 神经 元 兴奋 ， 一 定数 目的 固定 (加 权 ) 神经 元 突 触 在 一 个 离散 时 间 步 内 必须 是 
兴奋 的 ， 并 且 这 个 数目 独立 于 任何 先前 的 活动 。 

3. 在 “神经 系统 ”内 了 唯一 有 意义 的 延迟 是 突 触 延 迟 ， 即 花费 在 突 触 上 传播 信息 的 时 间 。 

4. 任何 非 零 抑制 性 突 触 的 活动 将 在 离散 时 间 步 中 绝对 阻止 神经 元 兴奋 。 

5. 神经 网 络 的 结构 并 不 随时 间 而 改变 。 a 

图 1-1 显 示 一 个 McCulloch-Pitts 神 经 元 的 例子 。 从 x 到 x 的 N 6 
连接 是 兴奋 性 输入 ， 这 是 由 于 突 触 权 值 w 是 正 数 。 从 妃 :到 xm 
的 连接 是 抑制 性 的 ， 这 是 由 于 突 触 权 值 (c) 是 负数 。 所 以 ， oe 
对 神经 元 y 有 n 个 兴奋 性 输入 和 mm 个 抑制 性 输入 。 在 一 个 离散 时 0 
间 步 内 ， 信 和 号 通过 神经 元 输入 (x Fx, an) Bly. HATER Sno 
HRY HU AAT AR AS BRR FER AU ERAEN A FRE oa 
到 的 总 的 输入 信号 是 &， 如 果 x> 6， 那 么 神经 元 输出 是 y = 1 
( 即 神经 元 输出 是 兴奋 ， 或 点 火 )， 然而， 如 果 x < 92， 那么 7 = 0 图 1-1 阐 值 为 9 的 McCulloch- 
( 即 神经 元 是 抑制 ， 或 寂静 )， 也 就 是 说 : Pitts 神 经 元 y 的 体系 结构 
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神经 元 的 绝对 抑制 状态 需要 下 面条 件 成 立 : 
nw-c <6 (1-2) 
这 是 前 面 陈述 的 假设 4 的 直接 结果 ， 也 就 是 说 ， 任 何 非 零 抑制 突 触 将 绝对 禁止 神经 元 兴奋 。 
( 它 仅 取 一 个 cl!) MRA TCH RAIS AO = hw (h 是 一 个 整数 )， 那 么 如 果 hw 之 09， 神经 元 y 
将 点 火 ， 也 就 是 说 ， 如 果 h 个 或 更 多 (最 多 为 n) 兴奋 输入 被 接受 而 没有 任何 抑制 输入 。 通 过 
设置 权 值 和 McCulloch-pitts 神 经 元 的 阔 值 ， 能 够 实现 一 些 简单 的 逻辑 (布尔 ) 函数 。 

例 1.1 实现 AND 钦 辑 函 数 可 使 用 县 有 相等 权 值 为 1 的 两 个 突 触 连接 和 疮 值 9 = 2 的 McCulloch- 
Pitts 神 经 元 (参见 图 1-2)。 仅 当 两 个 输入 均 为 开 时 ，AND 逻 辑 函 数 产 生 为 真 (true) 的 响应 ; 
否则 ， 神 经 元 响应 为 假 (false)( 即 一 个 或 两 个 输入 都 是 关 ， 也 称 为 抑制 )。 所 以 ， 真 响应 表 
PAL, MRHAR. SANDZE ARKA “BE” Rin FAR: 


ANDER 6=2 
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1-2 用 于 执行 AND 逻 辑 国 数 的 McCulloch-Pitts 神 经 元 


上 面 的 AND 逻 辑 函 数 表 内 的 “模式 ”可 以 成 为 不 同 神经 网 络 的 训练 模式 〈 记 住 ， 这 里 为 
McCulloch-Pitts 神 经 元 ， 它 的 所 有 权 值 和 靖 值 都 预先 设置 ) 。 特 别 是 ，z 为 训练 输入 模式 ， 相 
应 的 7 为 目标 〈 期 望 输出 ) 值 。 在 后 面 讨 论 神经 网 络 的 监督 训练 时 我 们 将 深入 探讨 这 一 点 。 

例 1.2 ”实现 OR 逻辑 函数 同样 可 使 用 两 个 突 触 连接 的 McCulloch-Pitts 神 经 元 ， 然 而 ,现在 
权 值 设置 为 2， 阔 值 仍 设置 成 9 = 2 (参见 图 1-3)。 如 果 两 个 输入 中 的 一 个 或 者 两 个 同时 是 开 ， 
那么 神经 元 响应 总 是 1 ( 真 )， 但 是 ， 如 果 两 个 输入 都 是 关 ， 神 经 元 响应 该 是 0〈 假 )。 这 也 称 
为 同 或 (OR) 逻辑 函数 ， 因 为 两 个 输入 同时 是 开 ( 真 )， 神 经 元 输出 是 开 (A), ORD HR 
数 的 真 值 表 如 下 所 示 : 


ORZ RAR on? 


x, X 一 


oor eH 

ore oe 

Ore ele 
N 


图 1-3 用 于 执行 OR 逻辑 函数 的 McCulloch-Pitts 神 经 元 


例 1.3 。 McCulloch-Pitts 神 经 元 更 多 采用 XOR ( 异 或 ) 逻辑 函数 。 实 际 上 采用 三 个 神经 元 
来 实现 这 个 逻辑 函数 。XOR 逻 辑 函 数 跟 前 面 的 ( 同 或 ) OR 逻辑 函数 唯一 的 不 同 是 .只 有 当 输 
入 的 单个 值 是 开 (或 真 ) 时 ， 神 经 元 点 火 〈 即 神经 元 产生 一 个 真 响 应 1);， 否则 ， 响 应 是 假 
(或 关 )。 因 此 ， 这 个 函数 的 真 值 表 如 下 : 
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到 的 总 输入 信和 号 小 于 阅 值 : u< Offlu,< 6 ( 即 1 <2), XOR 逻 辑 函 数 
所 以 ， 在 神经 网 络 中 间 层 x，= x4 = 0。 从 而 ， 由 于 x 
和 x 均 是 抑制 的 ， 所 以 输出 y = 0， 这 一 点 精确 地 显 1 
示 在 上 面 的 XOR 钦 辑 函 数 表 中 。 如 果 两 个 输入 是 关 ， 0 
即 x,=x,= 0， 显 然 y = 0 (上 面 的 XOR 逻 辑 表 所 示 )。 0 1 
让 我 们 分 析 一 下 在 图 1-4 中 如 果 x, = 1, FFA = 0 会 0 0 
发 生 什 么 。 在 xs， 由 于 该 神经 元 总 的 接收 输入 信和 号 
ST MATRA, ， 神 经 元 响应 为 开 ， 所 以 ，x = 1, 
Rei, fix, HAR, Bx, = 0， 这 是 由 于 该 神 
经 元 接受 的 总 输入 信号 小 于 神经 元 的 阐 值 。 总 之 ， 
网 络 输出 (响应) 将 会 是 y = 1 (激活 ， 或 真 )， 这 
是 由 于 该 神经 元 接受 的 总 输入 信号 等 于 神经 元 的 
BA. HFAA = 0 和 xz = 1， 与 上 面 情况 类 似 ， 
结果 是 相同 的 ， 即 y = 1。 这 就 完成 了 上 面 的 XOR 
逻辑 函数 真 值 表 。 图 1-4 用 于 执行 XOR 逻 辑 函 数 的 McCulloch- 

如 同 我 们 将 在 第 2 章 中 看 到 的 那样 ， 商 定神 经 pits 神 经 网 络 
计算 基础 的 基本 概念 都 来 自 简单 的 McCulloch-Pitts 
神经 元 。 从 McCulloch 和 Pitts 的 早期 研究 以 来 ， 神 经 网 络 研究 已 经 有 巨大 的 进展 。 这 确实 是 一 
个 多 学 科 性 的 主题 ， 我 们 没有 理由 不 相信 ， 这 种 趋势 将 继续 下 去 ， 从 而 神经 网 络 领 域 中 将 产 
生 新 的 理论 以 及 新 的 应 用 。 


1.3 神经 计算 和 神经 科学 


如 前 所 述 ， 神 经 计算 系统 是 对 人 脑 非常 粗糙 的 建 模 。 事 实 上 ， 神 经 网 络 领域 的 许多 研究 
人 员 并 不 承认 在 神经 科学 与 神经 计算 之 间 有 任何 联系 。 然 而 ， 神 经 科学 的 研究 促进 了 神经 计 
算 的 许多 发 展 。 因 此 ， 在 此 有 必要 介绍 生物 神经 网 络 的 概况 。 在 神经 科学 中 有 许多 综合 研究 
报告 ， 我 们 的 目的 并 不 是 给 出 神经 科学 领域 全 面 或 广泛 的 编 年 史 ， 然 而 ， 我 们 确实 想 给 出 生 
物 神 经 网 络 的 相关 资料 细节 ， 以 便 使 读者 了 解 某 些 人 工 神经 网 络 概念 同 它们 的 生物 对 应 概念 
之 间 的 联系 。 

生物 神经 网 络 

神经 系统 是 巨大 而 复杂 的 神经 网 络 。 人 脑 是 神经 系统 的 中 心 元 素 。 人 脑 同 感受 器 
(receptor) 相连 接 , 感受 器 来 回 输 送 感觉 信息 给 人 脑 ， 而 人 脑 传递 动作 命令 给 效应 器 (effector)。 
人 脑 本 身 是 由 大 约 10 个 神经 元 组 成 的 网 络 ， 这 些 神 经 元 通过 称 为 细胞 核 的 子 网 络 相互 连接 。 
细胞 核 由 一 系列 有 特定 的 确定 功能 的 神经 元 答 ( 束 ) 构成 。 子 网 络 对 其 所 收 到 的 感觉 信息 在 
发 送 到 其 他 子 网 之 前 通常 要 分 割 和 修改 。 经 过 处 理 的 信和 号 的 最 终 形式 传递 给 效应 器 以 产生 一 
个 动作 。 

人 脑 中 的 感觉 系统 和 子 网 络 非常 擅长 把 复杂 的 感觉 信息 分 解 成 为 具有 本 质感 觉 特征 的 基 
本 组 成 部 分 。 对 每 一 种 官能 这 些 分 解 是 不 同 的 。 例 如 ， 了 眼睛 和 脑 依 据 颜 色 、 强 度 、 指 向 特性 、 
动作 、 比 例 、 双 有 眼 视 觉 特 性 来 分 割 一 个 视觉 图 像 。 这 些 成 分 不 是 重 构 成 原始 的 视觉 形式 ， 而 
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是 传递 到 其 他 子 网 络 进行 选择 性 的 评价 和 局 部 重 构 。 

生物 神经 元 对 于 人 工 神经 元 (处理 单元 ) 具有 启发 作用 。 因 此 ， 两 者 具有 相近 的 结构 。 
Fausett[37] 讲 述 了 生物 上 的 可 信和 性 对 最 有 效 地 模拟 生物 神经 元 和 人 工 神经 元 的 重要 性 。 人 脑 和 
神经 系统 的 其 他 部 分 由 许多 不 同 种 类 的 神经 元 构成 ， 这 些 神经 元 的 电学 性 质 、 数 量 、 大 小 以 
及 连接 模式 方面 均 显 著 不 同 (参见 图 1-5 和 表 1-1)。 这 些 差 异 经 常 相当 大 。 


Parvo Magno 细 胞 


细胞 体 


图 1-5 parvo (小 ) 和 magno (K) 细胞 的 例子 


表 1-1 parvo 和 magno 神 经 节 细胞 间 挑 选 的 解剖 学 和 生理 学 上 的 差异 以 及 一 些 行为 的 可 能 后 果 


























Parvo 神 经 节 细 胞 Magno 神 经 节 细 胞 
解剖 学 上 的 差异 细胞 体积 小 细胞 体积 大 
分 叉 稠 密 sy RB 
分 叉 短 分 叉 长 
多 数 细胞 少数 细胞 
生理 学 上 的 差异 传导 率 慢 传导 率 快 
持续 响应 短暂 响应 
接受 域 小 接受 域 大 
低 对 比 敏感 度 高 对 比 敏感 度 
颜色 敏感 fe 
可 能 的 行为 后 果 细节 形式 分 析 运动 检测 
空间 分 析 时 间 分 析 
颜色 视觉 深度 感知 





生物 神经 元 由 三 个 主要 部 分 构成 : 树 突 、 细 胞 体 和 轴 突 ， 参 看 图 1-6a。 树 突 收 到 来 自 
其 他 神经 元 的 信号 。 其 他 神经 元 的 轴 突 通过 称 为 突 触 的 连接 器 把 树 突 和 细胞 体 表面 连接 起 
来 。 依 据 神经 元 的 类 型 ， 同 其 他 神经 元 相连 的 突 触 连接 数目 从 几 百 个 到 10 000 个 不 等 [39]。 
因为 神经 元 膜 的 电学 性 质 ， 到 达 树 突 的 信号 随时 间 和 距离 (时间 和 空间 ) 迅速 衰减 ， 因 此 
失去 激活 神经 元 的 能 力 ， 除 非 被 其 他 的 几乎 同时 并 且 / 或 者 邻近 位 置 发 生 的 信号 所 增强 ， 参 
见 图 1-7。 

细胞 体 (soma) 释 加 来 自 于 树 罕 的 信号 ， 也 登 加 来 自 于 它 表 面 的 大 量 突 触 的 信号 。 当 收 
到 的 输入 足以 刺激 神经 元 到 达 它 的 阔 值 时 ， 神 经 元 产生 动作 位 势 ， 即 点 火 ， 并 沿 着 轴 突 传递 
动作 位 势 给 其 他 神经 元 或 神经 系统 外 的 目标 细胞 ， 如 肌肉 。 然 而 ， 假 若 输 入 没有 到 达 阔 值 ， 
则 输入 将 迅速 衰减 并 且 不 产生 动作 位 势 ， 参 看 图 1-8a。 因 此 ， 动 作 位 势 的 产生 认为 是 全 或 无 ， 
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因为 轴 罕 或 者 产生 ， 或 者 不 产生 。 而 且 ， 输 入 的 强度 由 每 秒 产生 动作 位 势 的 数量 而 不 是 大 小 
来 表示 。 例 如 ， 强 输入 和 弱 输 入 信号 产生 的 动作 位 势 的 大 小 和 形状 是 一 样 的 。 然 而 ， 强 输入 
比 弱 输入 每 秒 (单位 时 间 ) 产生 动作 位 势 的 数量 多 。 





树 突 > We 
| en 其 他 轴 突 的 
一 二 输出 信号 
兴奋 树 突 
-元 个 兴奋 后 突 触 电位 
神经 种 1 抑制 KIRAR 
神经 冲动 一 后 突 触 
N 
RRA 抑制 后 突 触电 位 
前 突 触 膜 
轴 突 的 输出 信号 RARE 
a) b) 


图 1-6 a) 生物 神经 元 的 示意 性 结构 ，b) 突 触 的 简化 图 示 


E S 





a) b) c) 


图 1-7 a) 因为 具有 树 突 的 几何 形状 而 用 作 运 动 检测 器 的 神经 元 ，b) 使 4, B, C, D 同 时 兴奋 并 
不 能 使 神经 元 兴奋 ，c) 然而 ， 如 果 突 触 按 D-C-B-4 的 顺序 激活 ， 使 四 个 项 点 近似 同时 
达到 轴 突 的 小 丘 ， 组 合 效果 将 超过 阔 值 ， 从 而 神经 元 激活 


突 触 是 连接 轴 突 末端 到 目标 的 接触 点 。 这 些 特殊 化 的 结构 ， 如 连接 轴 突 到 树 突 、 细 胞 体 、 
神经 末梢 、 肌 肉 或 腺 ， 是 由 特定 结构 的 、 化 学 的 和 电学 特性 所 表征 。 突 触 由 三 个 基本 元 素 构 
成 : (1) 神经 末梢 ，(2) AARAA, G) 后 突 触 膜 ， 参 看 图 1-9。 当 动作 位 势 到 达 
(“侵袭 ”) 神经 末梢 时 ， 神 经 末梢 通过 一 系列 的 生化 事件 将 电信 号 转化 成 化 学 信号 。 在 转化 的 
最 后 阶段 神经 末梢 释放 一 种 称 为 神经 传递 素 的 化 学 物质 。 神 经 传递 素 对 突 触 膜 起 作用 。 神 经 
系统 释放 许多 不 同 的 神经 传递 素 。 然 而 ， 单 个 的 神经 末梢 仅 释 放 一 种 神经 传递 素 。 在 大 约 2 毫 
秒 (ms) 时 间 内 ， 神 经 传递 素 通过 突 触 裂 颖 扩散 ， 而 突 触 裂 锋 是 相对 开阔 的 空间 。 每 个 神经 
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传递 素 附着 在 称 为 接受 器 的 特定 绑 定 点 ， 而 接受 器 是 戏 入 后 突 触 膜 的 。 当 神经 传递 素 附 着 在 
接受 器 上 时 ， 将 触发 电 的 和 生化 的 响应 ， 导 致 后 突 触 膜 上 电压 的 变化 。 有 两 类 主要 的 神经 传 
递 素 ， 兴奋 和 抑制 。 兴 奋 神 经 传递 素 去 极 化 隔膜 ， 但 单个 突 触 太 小 ， 不 能 由 自身 产生 一 个 动 
作 位 势 。 当 对 数 百 个 其 他 突 触 同 时 发 生 的 去 极 化 进行 琶 加 后 ， 能 够 集中 产生 一 个 动作 位 势 。 
抑制 神经 传递 素 产 生 相 反 的 效果 ， 使 后 突 触 膜 超 极 化 ， 从 而 取消 兴奋 神经 传递 素 的 动作 ， 并 
且 在 某 些 情况 下 阻止 动作 位 势 的 产生 。 因 此 ， 动 作 表示 神经 元 兴奋 活动 的 和 。 相 应 地 ， 动 作 
电位 传递 到 轴 突 末端 ， 在 轴 突 末端 神经 元 之 间 通 过 突 触 进行 通信 。 突 触 充当 直接 连接 ， 使 神 
经 元 之 间 建 立 神经 回路 。 


动作 电位 





毫秒 
b) 
图 1-8 a) 动作 位 势 的 例子 ，b) 兴奋 的 后 突 触 位 势 ， 表 明 仅仅 一 些 同 时 激活 的 突 触 并 不 产生 
足够 的 总 电压 。 然 而 ,许多 同时 激活 的 突 触 将 提升 总 电压 到 兴奋 的 阅 值 ， 从 而 引起 一 
个 登 加 的 动作 位 势 
作为 人 工 和 生物 型 神经 网 络 相似 性 的 一 个 例子 ， 表 1-2 比 较 了 三 个 不 同 的 神经 体系 结构 。 


表 1-2 神经 网 络 结构 和 它们 的 神经 系统 对 应 物 的 例子 








神经 网 络 神经 系统 
单 层 前 馈 网 络 除了 在 最 简单 的 反射 弧 路 径 外 少见 
多 层 前 馈 网 络 常见 县 复杂 ; 通常 具有 几 个 隐 着 层 。 局 部 连接 比例 连接 更 常见 


递归 网 络 负 反馈 ， 比 神经 网 络 的 类 比 物 复杂 得 多 。 神 经 系统 的 一 个 本 质 和 显著 特征 
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这 个 路 么 到 细胞 体 





树 突 或 细胞 体 
后 突 触 膜 l 
图 1-9 —7S FRAY ASS A, SE AE aS ETAR, A ES A SE 


1.4 神经 网 络 的 分 类 


人 工 神经 网 络 有 多 种 不 同 分 类 方法 。 例 如 : 按照 神经 网 络 学 习 或 需要 的 训练 类 型 ， 或 者 
能 够 完成 的 各 种 应 用 ， 使 用 的 是 激活 国 数 还 是 基 函 数 ， 是 递归 的 还 是 非 递归 的 ， 以 及 训练 的 
输入 类 型 [43] 等 等 。 所 以 ， 神 经 网 络 的 分 类 很 复杂 。 例 如 ， 神 经 网 络 如 果 按 照 无 监督 学 习 还 是 
监督 学 习 来 分 类 ， 那 么 某 些 网 络 可 能 具有 多 种 类 别 。 图 1-10 显 示 了 神经 网 络 不 同类 型 及 其 如 
何 按照 学 习 类 型 ( 即 无 监督 学 习 还 是 监督 学 习 ) 分 类 的 例子 。 在 这 个 例子 中 就 无 法 放置 对 传 
网 络 〈 参 考 3.5 节 ) ， 另 外 也 无 法 放置 霍 普 菲尔德 网 络 (参考 5.3 节 ) ， 这 个 网 络 是 一 个 递归 神经 
网 络 ， 实 际 上 被 认为 是 一 个 固定 权 值 的 网 络 。 


无 监督 学 习 


( 自 组 织 ) 监督 学 
无 教师 需要 外 部 教师 
自 组 织 输入 数据 ， 发 现 通过 例子 ， 学 习 
输入 数据 自身 的 整体 性 质 产生 期 望 的 输出 结果 
相关 性 竞争 性 误差 修正 基于 匹配 
根据 Hebb 学 习 规 则 输出 神经 元 竞争 关于 网 络 权 值 根据 相似 度 
调节 突 触 权 值 直到 有 神经 元 获胜 输出 误差 最 小 化 调节 权 值 
一 PCA 网 络 一 ART 一 感知 器 一 模糊 ARTMAP 
一 健壮 PCA 一 特征 映射 一 Adaline(LMS 算 法 ) 一 模糊 LAPART 
一 由 反 向 传播 训练 
的 前 蚀 网 络 
一 RBF 网 络 


图 1-10 按照 如 何 学 习 ( 即 监督 学 习 还 是 无 监督 学 习 ) 选择 神经 网 络 的 类 别 
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1.5 本 书 指南 


本 书 分 成 两 大 主要 部 分 : 

。 第 一 部 分 : 神经 计算 的 基本 概念 和 部 分 神经 网 络 体系 结构 及 其 学 习 规则 

， 第 二 部 分 : 神经 计算 的 应 用 

第 一 部 分 包含 什么 题材 

第 一 部 分 由 第 1 ~ 5 章 组 成 。 第 1 章 是 概述 ， 对 读者 介绍 神经 网 络 和 神经 计算 的 基本 概念 。 
第 2 章 以 人 工 神 经 元 的 基本 模型 介绍 开始 ， 人 工 神经 元 是 神经 网 络 的 构件 ， 接 着 ， 对 激活 国 数 
的 不 同类 型 进行 讨论 。 在 介绍 最 小 均 方 (least mean-square, LMS) 算法 之 后 ， 给 出 自 适 应 线 
性 单元 (Adaline) 和 多 重 自 适应 线性 单元 (Madaline) 。 详 细 地 曾 述 了 简单 感知 器 ， 接 着 是 对 
前 馈 多 有 层 感 知 器 的 简短 讨论 。 在 其 后 讨论 一 些 基本 学 习 规 则 ， 这 些 规则 是 前 面 几 章 介绍 的 某 
些 情况 的 扩展 。 这 些 学 习 规则 的 大 部 分 是 用 于 训练 更 复杂 神经 网 络 体系 结构 的 基础 。 第 2 章 对 
选择 的 数据 预 处 理 方 法 做 了 概述 。 以 作者 的 观点 ， 这 是 非常 重要 的 专题 ， 但 神经 计算 的 研究 
中 没有 足够 强调 这 点 。 如 果 读 者 还 不 熟悉 人 工 神经 网 络 的话 ， 应 深入 学 习 第 2 章 所 有 内 容 。 这 
章 是 深入 理解 第 3 一 5 章 中 精 选 的 神经 网 络 体系 结构 及 其 相关 学 习 规 则 的 基础 。 这 些 章 综 合 介 
绍 了 精 选 的 具有 历史 意义 的 和 在 现实 世界 中 获得 重大 应 用 的 神经 网 络 及 其 学 习 规 则 。 此 外 ， 
这 几 章 包含 的 大 量 信 息 同 本 书 第 二 部 分 讨论 的 题材 有 关 。 另 外 ， 第 一 部 分 为 高 级 读者 介绍 各 
种 神经 体系 结构 和 学 习 规 则 ， 这 样 使 读者 能 为 解决 实际 问题 建立 自己 健壮 的 神经 网 络 处 理 
方法 。 

第 3 章 给 出 多 种 映射 神经 网 络 。 从 联想 记忆 开始 ， 接 着 是 用 于 训练 前 馈 多 层 感知 器 的 反 向 
传播 ， 对 于 反 向 传播 给 出 更 先进 的 训练 方法 。 还 介绍 对 传 网 络 ， 这 章 还 包括 对 径 向 基 范 数 神 
经 网 络 的 描述 。 第 4 章 讨 论 部 分 自 组 织 神 经 网 络 。 包 括 Kohonen 的 自 组 织 上 映射 (self-organizing 
map, SOM)、 学 习 向 量 量化 (learning vector quantization, LVQ) 和 自 适 应 共振 理论 (adaptive 
resonance theory, ART) 神经 网 络 ， 对 ARTI 网 络 进行 了 详细 介绍 。 第 5 章 给 出 时 序 前 馈 网 络 
(也 是 递归 神经 网 络 ) 和 递归 神经 网 络 。 介 绍 时 序 前 馈 网 络 和 那些 不 是 多 层 前 馈 网 络 的 网 络 之 
间 的 区 别 。 在 读 章 中 包括 有 霍 普 菲尔德 网 络 、 模 拟 退 火 、 玻 尔 兹 曼 机 、 简 单 递归 网 络 (simple 
recurrent network, SRN)、 时 延 网 络 以 及 分 布 式 时 灌 前 馈 神 经 网 络 。 本 书 用 于 神经 计算 的 研究 ， 
这 决定 了 第 3~5 章 包含 了 很 多 内 容 。 

第 二 部 分 包含 什么 题材 

第 二 部 分 由 第 6~ 10 章 组 成 。 这 几 章 包含 神经 计算 在 解决 工程 和 科学 的 种 种 难题 中 的 许多 
不 同 应 用 。 第 6 章 介绍 用 于 求解 约束 最 优化 问题 的 部 分 神经 计算 方法 ， 包 括 用 于 线性 规划 和 二 
次 规划 的 神经 网 络 ， 和 用 于 非 线性 连续 约束 最 优化 问题 的 神经 网 络 。 第 7 章 给 出 用 于 求解 矩阵 
代数 问题 的 一 系列 结构 化 神经 网 络 。 对 于 每 个 方法 同时 给 出 各 种 各 样 的 重要 的 矩阵 分 解 〈 或 
因 式 分 解 ) 和 神经 计算 解法 。 神 经 计算 方法 也 用 于 计算 矩阵 伪 逆 ， 求 解 代数 李 雅 普 诺 夫 
(Lyapunov) 方程 和 代数 里 卡 落 (Riccati) 方程 。 第 8 章 讲解 如 何 用 神经 网 络 求解 线性 代数 方 
程 。 这 些 方法 包括 最 小 二 乘 神经 计算 方法 、 共 扼 梯 度 学 习 规则 、 广 义 鲁 棒 性 神经 计算 方法 、 
用 于 解决 具有 不 确定 数值 秩 的 不 适 定 问题 的 正则 化 方法 、 用 于 迭代 离散 时 间 方 法 的 矩阵 分 裂 
和 总 体 最 小 二 乘 问题 。 并 且 , .给 出 了 用 于 解决 线性 代数 方程 的 L> 范 数 和 Ll 范 数 的 神经 网 络 方 
法 。 第 9 章 给 出 用 于 统计 分 析 的 不 同 神经 计算 方法 的 深入 讨论 。 包 括 如 下 内 容 : 用 于 主 成 分 分 
析 (principal-component analysis, PCA), 主 成 分 回归 (PCR) 和 经 典 最 小 二 乘 (CLS) 的 神 
经 网 络 ， 用 于 非 线 性 PCA 和 和 鲁 棒 PCA 的 神经 网 络 ， 用 于 部 分 最 小 二 乘 回 归 (partial least- 
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squares regression, PLSR) 的 神经 网 络 方法 ， 以 及 用 于 和 鲁 棒 PLSR 的 神经 网 络 方法 。 第 10 章 包 
经 网 络 应 用 涉及 信和 号 处 理 、 线 性 和 非 线性 系统 辨识 、 非 线性 控制 和 估计 ， 包 含 许 多 不 
同 例子 的 细节 ， 也 包括 使 用 神经 网 络 用 于 宣 源 分 离 的 独立 成 分 分 析 (independent-component 
analysis, ICA) 。 另 外 ， 给 出 快速 ICA 算 法 以 及 将 快速 ICA 算 法 应 用 于 数字 图 像 分 离 的 例子 。 最 


括 的 神 


后 包括 附录 ， 给 出 一 些 用 于 研究 和 应 用 神经 计算 技术 的 数学 基础 。 
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第 2 章 神经 计算 的 基本 概念 


2.1 概述 


本 章 所 讲述 的 是 可 执行 各 种 功能 的 神经 结构 的 基础 。 正 如 第 1 章 所 述 ， 人 工 神经 网 络 由 许 
多 相互 连接 的 处 理 单元 (人工 神经 元 或 节点 ) 组 成 。 因 此 ， 本 章 先 从 人 工 神 经 元 模型 的 表示 
开始 讲 起 。 这 些 模型 可 以 用 在 无 数 应 用 中 的 许多 不 同 神经 网 络 类 型 的 构件 。 本 章 主 要 关注 从 
科学 和 工程 的 角度 对 基本 概念 的 表述 ， 利 用 人 工 神 经 网 络 解决 问题 。 我 们 不 讨论 关于 生物 神 
经 网 络 的 议题 ， 如 认 知 、 神 经 建 模 、 神 经 生理 学 的 逻辑 问题 和 人 脑 的 细节 。 

在 2.8 节 将 给 出 多 个 用 于 单个 神经 元 的 基本 学 习 规 则 。 这 些 概念 可 以 扩展 至 具有 多 个 神经 
元 的 网 络 。 因 此 ， 这 里 给 出 的 很 多 学 习 规则 在 后 面 几 章 中 用 来 建造 更 复杂 的 神经 结构 。 这 章 
的 最 后 一 部 分 主要 讨论 数据 预 处 理 这 个 非常 重要 的 课题 。 一 些 预 处 理 方法 将 被 提 及 。 特 定神 
经 网 络 的 性 能 取决 于 训练 阶段 (特别 是 所 使 用 的 训练 数据 )。 多 数 情况 下 ， 有 必要 对 训练 数据 
预 处 理 ， 从 可 用 的 数据 中 抽取 重要 特征 ， 取 代 “ 原 始 ”数据 训练 网 络 。 因 此 ， 对 训练 数据 的 
预 处 理 可 以 提高 神经 网 络 的 性 能 。 


2.2 人 工 神经 元 的 基本 模型 


在 第 1 章 中 给 出 了 人 工 神经 网 络 (ANN) 的 基本 概念 ， 在 那里 阐明 ， 神 经 网 络 通常 由 许多 
单个 神经 元 构成 。 一 个 人 工 神经 元 也 可 称 为 处 理 基 元 、 节 点 或 阔 值 逻辑 单元 ， 但 是 ， 我 们 通 
常 称 之 为 神经 元 。 神 经 元 是 一 个 信息 处 理 单元 ， 它 与 其 生物 对 应 物 大 致 相似 (参看 1.3 节 ) 。 
图 2-1 显 示 一 个 人 工 神 经 元 模型 。 模 型 由 四 个 基本 组 成 部 分 : (1) 一 组 同 突 触 权 值 相 联系 的 突 
触 。 如 图 2-1 所 示 ， 对 突 触 输入 的 连续 值 是 一 个 向 量 信号 xz ER, 5} Bh, f= 1, 2,…, 1, 
即 x = [xn x …, x,]"。 因 此 ， 每 个 向 量 分 量 x 输 入 给 第 j 个 突 触 ， 并 且 通 过 突 触 权 值 wj 与 神经 元 
4g 相 连接 ， 即 ,用 突 触 权 值 w, 相 乘 。 对 于 突 触 权 值 下 标的 约定 是 第 一 个 下 标 与 一 个 特定 神经 
元 相 联系 ， 第 二 个 下 标 同 和 突 触 权 值 相 乘 的 输入 向 量 元 素 关联 。 这 种 约定 带 有 随意 性 (也 可 
以 采用 相反 表示 法 )， 然 而 ， 为 了 网 络 结构 中 的 一 致 性 必须 始终 遵守 这 种 约定 。(2) 求 和 装置 
将 迭 加 所 有 传播 到 加 法 器 的 信号 ， 也 就 是 说 ， 每 个 输入 与 它 相 联系 的 突 触 权 值 相 乘 ,然后 再 
相 加 求 和 。 包 括 加 法 器 的 输出 u 在 内 的 所 有 运算 构成 一 个 线性 的 组 合 器 ， 由 于 u 是 对 神经 突 触 
输入 的 线性 组 合 。(3) 如 图 2-1 所 示 ， 当 激活 函数 (或 挤 压 函数 ) A-) 是 非 线性 时 ， 函 数 所 ) 将 
限制 神经 元 输出 y 的 幅度 。 激 活 函 数 可 以 是 连续 值 的 、 二 值 的 、 或 双 极 值 的 ， 或 在 某 些 情况 
下 可 以 是 线性 函数 。 当 激活 函数 是 非 线 性 时 ， 友 . ) 的 有 限 极限 通常 规整 到 [0, 1] (二 值 ) 的 范 
围 或 者 [一 1, 1] ( 双 极 值 的 ) 的 范围 。 在 一 个 高 度 互 连 ， 大 规模 并 行 的 人 工 神经 体系 结构 中 ， 
非 线 性 对 网 络 的 分 类 、 近 似 表示 和 抗 噪音 干扰 等 能 力 有 增强 作用 。(4) BEO, 通常 在 外 部 应 
用 ， 并 且 降 低 对 激活 函数 的 累积 输入 。 所 以 ，9, 在 用 于 激活 之 前 ， 从 线性 组 合 器 的 输出 u 中 
减 掉 。 激 活 函 数 的 输入 可 以 通过 添加 一 项 u, 即 偏 轩 而 得 到 增加 。 在 这 种 情况 下 ，06, 将 添加 到 
us 因而 ， 偏 置 是 阐 值 的 负数 。 特 别 地 ， 有 效 内 在 次 活 电 位 (activation potential) 或 活动 水 
平 (activity level) 


V, =u,— 0, (2-1) 
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突 触 BHE 
(或 偏 置 ) 
Xl 多 
向 量 输入 
ae AR (输出 ) 
xeRrX!< x Yq 





: 求 和 连接 ”激活 函数 
x 07 细胞 体 
突 触 权 值 (soma) 


图 2-1 人 工 神经 元 非 线 性 模型 


与 神经 元 4 的 线性 组 合 器 输出 us 之 间 的 关系 依赖 于 阐 值 0, 是 正 数 还 是 负数 。 可 以 把 阐 值 想像 成 
对 线性 组 合 器 的 输出 w 应 用 一 次 仿 射 变化 [1]。 

在 数学 上 ， 我 们 可 以 通过 下 面 写 出 的 儿 个 等 式 来 描述 在 图 2-1 中 的 人 工 神 经 元 的 操作 。 线 
性 组 合 器 的 输出 由 公式 


DE (2-2) 
给 出 ’ 其 中 x 在 上 面 描 述 ， W = [w> Waz» Eae Worl’ E€ R” ' ? 并 且 激 活 函 数 的 输出 是 
Y, FFV) = fu — 4) (2-3) 


所 以 ,借助 式 (2-2) 和 式 (2-3) ， 神 经 元 的 输出 为 
(< \ 
tA (2-4) 


图 2-2 显 示人 工 神 经 元 的 另外 一 种 模型 。 在 该 模型 中 ， 闪 值 (或 偏 置 ) 合并 到 神经 元 gq 的 
罕 触 权 值 向 量 w, 中 ， 并 且 输 入 向 量 增加 xo。 所 以 mw E R, x GE RE, HAARA 
活 电位 写作 





Uy 一 > Was (2-5) 
4 
xo= -1 (A) 
定 的 输入 
makt p RT) 
. wo= 9 (ili) 
1 
向 量 输入 
信号 
xe R” x1 X2 Ya 
w, 求 和 激活 输出 
Xn O 
a 
FeRUA (LHE RHE eta E ) 


图 2-2 人 工 神经 元 的 另 一 个 非 线性 模型 


并 且 神 经 元 4 的 输出 写作 
Ya = f(v) (2-6) 
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所 以 ,在 式 (2-5) 中 增加 一 个 新 的 突 触 ， 并 且 由 图 2-2， 根 据 外 部 作用 的 是 装 值 还 是 偏 置 ， 对 
该 突 触 的 输入 分 别 是 z = 一 1 或 z = 1， 并 且 对 于 外 部 应 用 阔 值 ， 相 关 的 突 触 权 值 为 wo = 8,， 或 
者 对 于 外 部 应 用 的 偏 置 wo = Bpo 


2.3 基本 激活 函数 


如 图 2-1 或 图 2-2 所 示 的 激活 函数 (也 称 为 传递 函数 ) 可 以 是 线性 或 非 线 性 函数 。 有 许多 

不 同 种 类 的 激活 函数 。 由 神经 元 (或 神经 网 络 ) 所 需 解决 的 特定 问题 决定 选择 某 类 激活 函数 。 

这 里 我 们 给 出 四 类 最 常见 的 激活 函数 。 在 接 下 来 的 几 章 中 将 根据 所 解决 问题 的 类 型 给 出 更 复 

杂 的 函数 。 激 活 函 数 表示 的 基本 参考 模型 如 图 2-2 所 示 。 除 非特 别 指明 ， 一 般 假 设 阔 值 (或 偏 
置 ) 为 0。 

第 一 类 是 线性 (或 恒 等 ) 函数 ， 它 为 连续 值 的 。 数 学 上 ， 神 经 元 4 的 线性 激活 函数 的 输出 
可 以 写 为 

Yq =Siin(Vg) = Vy (2-7) 


其 中 ， 如 图 2-2 所 示 ，v。( 有 效 内 部 激活 电位 ) AREA A eH, FFA TA ARCO) 
的 输入 。 恒 等 函数 的 输出 ， 即 神经 元 y 的 输出 ， 就 是 v，( 或 线性 组 合 器 的 输出 )， 如 图 2-3 所 
示 。 这 或 许 是 一 个 平凡 的 激活 函数 ， 然 而 ， 以 后 我 们 将 看 到 在 一 些 线性 网 络 中 是 非常 有 
用 的 。 





图 2-3 线性 〈 恒 等 ) 激活 函数 


第 二 类 激活 函数 是 硬 限 幅 器 函数 。 这 是 一 个 二 值 (或 双 极 值 ) 函数 ， 对 于 二 值 类 型 ， 硬 
限 幅 器 函数 的 输入 为 0 或 1， 而 对 于 双 极 值 类 型 ， 硬 限 幅 器 函数 的 输入 为 一 1 或 1。 有 了 时 二 值 
硬 限 制 称 为 阅 值 函数 (我 们 仅 称 其 为 硬 限 幅 器 )， 而 双 极 值 硬 限 幅 器 称 为 对 称 硬 限 幅 器 ， 即 
由 国 数值 与 输入 值 w, 为 坐标 所 画 的 图 形 是 对 称 的 。 二 值 硬 限 幅 器 的 输出 (或 神经 元 4 输出 ) 
可 以 写 为 

0 如 果 v, <0 
=A=, 如 果 v,>0 (2-8) 
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对 于 对 称 硬 限 幅 器 (下 标 “shl” )， 神 经 元 4q 的 输出 可 写 为 


-1 如 果 v, <0 
y=fn(vs)=4 0 WMR v, =0 (2-9) 

1 mR v,>0 
有 了 时 将 此 函数 称 为 符号 (signum, sign) HB, BIA- ) = sgn(* )。 硬 限 幅 器 和 对 称 硬 限 幅 器 
的 特征 分 别 如 图 2-4 和 图 2-5 所 示 。 具 有 硬 限 幅 器 激活 函数 的 人 工 神经 元 称 为 McCulloch-Pitts 模 
型 (或 阅 值 单元 ) [2]， 同 第 1 章 讨论 的 一 样 。 在 最 初 的 研究 中 ， 神 经 元 权 值 连同 网 值 水 平 ， 都 
是 预 置 的 。 因 此 ， 没 有 与 神经 元 相关 的 训练 ， 而 由 分 析 导 出 的 预 置 权 值 ， 神 经 元 能 执行 简单 
的 逻辑 功能 ， 在 第 1 章 中 已 经 讲述 了 三 类 这 种 简单 的 逻辑 函数 。 许 多 人 认为 人 工 神经 网 络 领域 

的 起 源 来 自 于 他 们 的 先驱 性 工作 。 


Sf nig) 
1.2 


1 
0.8 
0.6 


0.4 


图 2-4 硬 限 幅 器 激活 函数 





图 2-5 对 称 硬 限 幅 器 激活 函数 
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第 三 类 基本 激活 函数 是 饱和 线性 函数 或 分 段 线性 函数 。 对 于 输出 的 饱和 限制 ， 这 类 国 数 
有 二 值 或 双 极 值 值 域 。 双 极 值 饱 和 线性 函数 称 为 对 称 饱 和 线性 函数 。 饱 和 线性 国 数 的 神经 元 4 
的 输出 〈 即 二 值 输出 ) 表示 为 


l 
如 果 一 一 
0 vV, < 7 


1 1 
y, = filo, = 10, +> 如 果 -sos (2-10) 
1 如 果 > 
而 对 称 饱 和 线性 函数 的 输出 为 
-1 如 果 v,<-l 
Y = falt) = du, MR -1l<v <1 (2-11) 
1 如 果 v, >l 


饱和 线性 函数 和 对 称 饱和 线性 函数 的 特征 分 别 如 图 2-6 和 图 2-7 所 示 。 





-1 —0.75 -0.5 -0.25 0 0.25 0.5 0.75 1 
图 2-6 饱和 线性 激活 函数 


第 四 类 基本 激活 函数 一 般 称 为 sigmoid (SZ) 函数 ， 这 里 我 们 给 出 两 类 。 非 线性 $ 形 男 
数 用 来 构造 人 工 神经 网 络 最 常用 的 激活 类 型 。 在 数学 上 它 是 良 态 的 、 严 格 递增 函数 。 第 一 
类 S 形 函数 是 二 值 S 形 函数 。 此 函数 的 饱和 输出 值 有 一 个 二 值 值 域 ， 神 经 元 4 的 输出 在 数学 上 
可 写 为 


1 
Y= Sry) = aay (2-12) 


其 中 a 是 二 值 S 形 函数 的 倾 人 参数。 通过 改变 这 个 参数 ， 可 以 得 到 函数 的 不 同形 状 ， 如 图 2-8 所 
示 。 与 硬 限 幅 器 在 原点 无 导数 不 同 ， 二 值 S 形 函数 是 连续 可 微 函 数 。 后 面 我 们 将 注意 到 ， 激 活 
函数 的 可 微 性 在 神经 计算 中 起 着 重要 作用 。 关 于 线性 组 合 器 输出 的 二 值 S 形 函数 的 导数 可 表 
示 为 
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Jssi(Vg) 
1.5 





oo 8 6 4 2 0 2 4 6 8 10° 


图 2-8 对 于 倾斜 参数 三 个 不 同 值 的 二 值 S 形 激活 函数 


go ) -各 Go) _ Tee E PV- el (2-13) 
在 坐标 原点 ， 用 a/4 表 示 二 值 S 形 函数 的 倾斜 度 。 通 过 在 式 (2-13) 中 设置 u, = 0， 这 一 点 是 显 
然 的 。 因 此 ， 随 着 a 的 增加 ， 二 值 S 形 函数 至近 硬 限 幅 器 。 图 2-9 画 出 了 倾斜 参数 的 两 个 不 同 值 
a= 1 和 a = 0.5 的 二 值 S 形 函数 的 导数 。 

S 形 函数 的 双 极 值 形式 可 以 是 双 曲 正切 S 形 函数 。 因 此 ， 这 个 函数 的 饱和 限制 为 双 极 值 值 
域 ， 神 经 元 4 的 输出 可 表示 为 


ewe 4 1-e 
Ya = Fins (v,) = tanh(av,) = avg “au, 一 (2-14) 
+e e 


e 
RFA E. 2-100 Hh T = FA Ta aR N dh ESEA, M E SERAK 
于 v 的 导数 由 





22, ED PBUH K ORAS RH DAE AAKABH BAF IAA 





Bns(U,) = Sint = ofl + ftw) i- fia )] 


30| 给 出 。 值 得 指出 ， 式 (2-13) 和 式 (2-15) 中 分 别 由 式 (2-12) 和 式 (2-14) 中 给 出 的 两 个 S 


31| 形 激活 函数 的 导数 ， 可 以 由 激活 国 数 本 身 表 示 。 这 一 点 在 后 面 将 非常 重要 ， 例 如 ， 在 我 们 建 


立 训 练 简单 感知 器 〈 参 考 2.6 节 ) 和 前 馈 多 层 感知 器 的 学 习 规则 时 (参考 3.3 节 )。 


0.10 





0.00 
-10 -8 -6 -4 -2 0 2 4 6 8 10 


图 2-9 对 于 倾斜 参数 两 个 不 同 值 的 二 值 S 形 激活 函数 的 导数 


fasto 
1 





图 2-10 对 于 倾斜 参数 三 个 不 同 值 的 双 曲 正切 S 形 激活 函数 


迄今 为 止 ， 我 们 所 提 到 的 激活 函数 可 取 正 负 值 ， 这 样 有 助 于 分 析 ， 正 如 我 们 在 下 一 章 将 
看 到 的 一 样 。 而 且 ， 使 用 这 样 的 激活 国 数 有 神经 生理 学 的 实验 证 据 支 持 [3]。 然 而 ， 很 少 有 像 


[32] 双 曲 正切 S 形 激活 函数 一 样 关于 原点 精确 反对 称 的 。 


如 图 2-2 所 示 ， 阔 值 6 和 偏 置 B, 的 效果 可 以 通过 观察 式 (2-12) 中 的 二 值 S 形 函数 来 说 明 。 
图 2-11 表 示 了 二 值 S 形 函数 的 三 种 图 形 , 分 别 为 阐 值 0, =2, (BB, = 2 和 通常 情况 (9, = Bp, = 0)。 
对 于 这 三 种 情形 ， 倾 斜 参数 设 为 单位 值 ( 即 w = 1) ， 从 图 2-11 可 看 出 ， 使 用 阔 值 相当 于 延迟 时 


间 域 信号 ， 添 加 偏 置 相当 于 信号 的 提前 。 
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| 图 2-11 BAREO, =2 和 偏 置 B,= 2 的 二 值 S 形 激活 函数 (a= 1) 
2.4 人 工 神经 元 的 霍 普 菲 尔 德 模型 


关于 John Hopfield 的 论文 [51， 正 如 [和 中 陈述 的 那样 ,“ 照 至 今 公开 的 资料 来 看 ， 神 经 网 络 
的 新 纪元 开始 于 John Hopfield 发 表 的 这 篇 论文 。” 在 这 篇 1982 年 的 论文 中 ， 霍 普 非 尔 德 给 出 了 
由 简单 处 理 单元 组 成 的 神经 体系 结构 ， 这 种 处 理 单元 建立 在 McCulloch 和 Pitts[2] 的 形式 神经 元 
基础 上 。 尽 管 以 前 进行 了 神经 网 络 领 域 的 大 量 研究 ， 但 是 霍 普 非 尔 德 的 论文 明确 描述 了 在 文 
献上 似乎 不 相关 的 若干 概念 并 把 它们 联系 在 一 起 。 这 篇 文章 的 影响 主要 在 于 作者 用 一 种 高 度 
一 致 的 方式 表达 这 些 概念 ， 并 阐述 神经 网 络 如 何 工 作 的 理论 思想 和 实际 问题 的 关系 ， 以 及 它 
的 可 能 的 应 用 。 

图 2-2 给 出 了 基本 模型 ， 在 图 2-4 中 表明 激活 函数 所 . ) 为 硬 限 幅 器 。 神 经 元 具有 两 种 状态 ， 
由 它 的 激活 电位 决定 ， 打开 状态 (或 激活 状态 ) 由 神经 元 输出 yw = 1 给 出 ， 关 闭 状态 (或 非 激 
活 状态 ) 由 神经 元 输出 y = 0 表示 。 基 于 这 些 神经 元 的 霍 普 非 尔 德 神经 网 络 是 异步 并 行 处 理 的 、 
完全 互 连 的 、 内 容 可 寻 址 的 记忆 (或 联想 记忆 ) ， 它 具有 检索 存储 模式 的 基本 功能 ， 以 响应 有 
噪声 或 不 完全 形式 的 模式 。 通 常 对 于 离散 时 间 模型 来 说 ， 把 激活 函数 作为 对 称 硬 限 幅 器 (如 
图 2-5 所 示 )， 对 于 连续 时 间 模型 而 言 ， 把 双 曲 正切 S 形 函数 (如 图 2-10 所 示 ) 作为 激活 函数 以 
利用 双 极 值 输出 。 和 前 馈 感知 器 不 同 ， 霍 普 非 尔 德 网 络 具 有 反馈 功能 ， 正 因 如 此 ， 和 霍 普 非 尔 
德 网 络 视 为 着 归 神经 网 络 。 我 们 将 在 5.3 节 中 讨论 霍 普 非 尔 德 网 络 的 细节 。 这 里 我 们 想 通过 给 
出 离散 时 间 和 连续 时 间 的 霍 普 非 尔 德 神经 元 模型 来 打下 基础 。 

人 工 神经 元 的 离散 时 间 霍 普 非 尔 德 模型 如 图 2-12 所 示 。 从 图 2-12 中 ， 我 们 可 以 把 神经 元 在 
单位 延迟 z ,之 前 的 输出 写成 

YEH) = fn LUCK + D] (2-16) 

其 中 


vj (k+1) = > wyx(k)- 8, (2-17) 
j=l 


OÆ SB FARO BE, HAv, (R) = v, (kT), Pk = 0, 1,2, … 是 离散 时 间 下 标 ， 并 且 Ts 是 采 
样 周 期 。 为 了 不 失 一 般 性 ， 假 定 采样 周期 规整 化 为 单位 值 〈( 即 Ts = 1)。 利 用 式 (2-16) WA 
(2-17) ， 神 经 元 的 输出 y,(k+1) 可 表示 为 
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z7! = 单位 延迟 
图 2-12 霍 普 非 尔 德 人 工 神经 元 的 离散 时 间 模 型 


D= Sa $ w0 (2-18) 


单位 延迟 z? ER TE A a TRA, A hy), Aheng, 7). AF 
在 离散 时 间 情 况 下 ， 形 成 神经 元 的 响应 公式 ， 所 以 ， 式 (2-18) 是 差分 方程 。 如 将 在 5.3 节 中 
看 到 的 一 样 ， 在 霍 普 菲尔德 网 络 中 ， 这 个 量 y。() 反 馈 至 其 他 神经 元 《 即 除 延迟 输出 被 提取 神 
经 元 外 的 其 他 所 有 神经 元 ) 作为 输入 ， 组 成 离散 时 间 霍 普 菲 尔 德 神经 网 络 。 因 此 ， 每 一 神经 元 
的 输入 均 是 双 极 值 ， 对 于 离散 时 间 的 霍 普 菲尔德 神经 网 络 突 触 权 值 矩阵 多 = [w4 = 1, 2, …， 
n) 是 对 角 线 为 零 的 实 对 称 和 矩阵 。 

人 工 神 经 元 的 连续 时 间 霍 普 非 尔 德 模型 如 图 2-13 所 示 。 在 图 2-13 中 ，7Tw = RsCs 是 第 9 神经 
元 的 积分 时 间 常 量 ，6, 是 外 部 应 用 的 阐 值 。 利 用 运算 放大 器 [81]、 电 容器 Cv 和 电阻 器 R, 实 现 
(tia) BOB, Hy, > 0 称 为 积分 器 的 泄漏 (或 遗忘 ) 因子 ， 如 图 2-13 中 的 反馈 回路 所 示 。 
泄漏 因子 对 于 0 输入 ， 迪 使 内 部 信号 v 变 为 0。 从 图 2-13 中 我 们 可 以 写 出 激活 电位 vs (0 的 差分 
方程 ; 





. {< \ ， 
Ta dt Sav +| Dwar] (2-19) 
= 





图 2-13 霍 普 非 尔 德 人 工 神经 元 的 连续 时 间 模 型 
图 2-13 所 示 的 神经 元 输出 可 表示 为 


Ya = fms (Va) (2-20) 
HAHAA nC) 是 双 曲 正切 S 形 国 数 ， 如 图 2-10 所 示 并 且 在 式 (2-14) PEL. BF 
du, /dt = 0 和 y, = 1, HH IE DISH BBS Bea > 1， 则 从 式 (2-19) 中 可 导出 离散 时 间 模 型 的 
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差分 方程 (2-17) [91。 由 连续 时 间 系 统 [10] 的 状态 空间 模型 建立 离散 时 间 状 态 空 间 模型 实际 
上 是 一 个 经 典 练 习题 。 


2.5 自 适 应 线性 单元 和 多 重 自 适应 线性 单元 


在 1960[111 中 ，Bernard Widrow 和 M. E.(Ted) Hoff, Jr. (Widrow 的 学 生 ) 在 加 州 斯 坦 福 的 
斯 坦 福 大 学 最 先 提出 了 最 小 均 方 (Least-Mean-Square, LMS) 算法 。 这 个 学 习 规则 有 时 称 作 
Widrow-Hoff 学 习 规则 或 8 规则 [12, 13], Adaline (AB AAU A) 是 根据 LMS 算 法 来 更 新 突 
触 权 值 的 单个 神经 元 [14]。 在 斯 坦 福 大 学 ，Widrow 和 他 的 学 生 们 开发 了 第 一 个 可 训练 的 分 层 
神经 网 络 ， 它 具有 多 个 自 适应 单元 ， 称 作 Madaline (多 重 Adaline) [14-16]。 用 于 训练 单 层 网 
络 的 LMS 算 法 是 用 于 前 馈 多 层 感 知 器 ( 见 3.3 节 ) 的 反 向 传播 学 习 规 则 的 前 身 。Memistor 公 司 
(由 Bernard Widrow 创 建 ) 的 第 一 批 商业 神经 计算 机 的 基础 是 Adaline 和 Madaline。LMS 学 习 规 
则 (SHM) 是 用 于 计算 神经 元 突 触 权 值 调整 的 自 适应 算法 。 该 算法 以 最 速 下 降 方法 为 基础 
[17, 181， 调 整 神经 元 权 值 ， 以 最 小 化 输入 向 量 与 权 值 向 量 的 内 积 同 神经 元 期 望 输出 之 间 的 均 
方 误差 。 我 们 从 解释 一 个 简单 自 适应 线性 组 合 器 开始 ， 然 后 讨论 LMS 算 法 ，Adaline 和 
Madaline 的 细节 。 


2.5.1 简单 自 适 应 线性 组 合 器 和 LMS 算 法 


图 2-14 给 出 了 简单 自 适应 线性 组 合 器 的 结构 [11]。 线 性 神经 元 的 基本 结构 可 从 图 2-2 导 出 ， 
fl-) 用 作 线 性 激活 函数 ，xo = 1 且 w,o = b, MH), = 1 (因为 我 们 只 处 理 单个 神经 元 ， 因 而 
扔 掉 这 个 下 标 )。 在 神经 元 的 监督 训练 过 程 中 ， 自 适应 线性 组 合 器 用 训练 输入 向 量 x (k) E 
N ( 即 x (O = De 人 (和 (日 (OV) 和 相应 的 期 望 响应 db E R, k= 1,2,3,… (离散 时 间 下 
ke) 表示 ， 采样 周期 假定 为 T, = !。x 的 分 量 既 可 以 是 连续 模拟 值 [可 能 的 采样 如 上 所 示 ， 即 
BAT, = 1 的 x (O) 或 二 值 (或 双 极 值 ) 。 假 定 输入 xz OIRA (AVE {x} = 0)， 宽 平稳 向 量 
随机 过 程 ， 其 中 E( : ) 是 期 望 算 子 ( 见 A.7.4 节 )。 显然 假定 E{x} = 0 不 是 对 LMS 算 法 的 一 个 限制 。 
网 络 任意 时 间 步 的 输出 是 由 输入 向 量 x (所 和 权 值 向 量 w (k) = [wi(D, wk), ow, (OYE R 
的 内 积 计算 得 到 的 ， 其 中 mm = 1, wok) = Bb6。 我 们 可 以 像 前 面 那 样 ， 把 偏 置 与 权 值 向 量 合 并 且 把 
X= 1 合并 到 x (k)。 然 而 ， 不 失 一 般 性 ， 假 定 偏 置 8 = 0， 因 而 网 络 输出 为 

uk) = x"(k) w(k) = wk) x(k) (2-21) 
将 输出 v ( 昌 与 期 望 响应 4 (ABLES, TAPP RZ RIR Ae. IRA A Il Bey (入 一 起 
反馈 给 自 适 应 器 或 学 习 算法 ， 如 图 2-14 所 示 。 学 习 算法 决定 了 如 何 改进 网 络 突 触 权 值 ， 以 使 
网 络 输出 (或 网 络 响应 )】 v ( = w7 (A) x (QA ed (A) 的 差 尽 可 能 小 。 期 望 响 应 作为 网 络 
的 辅助 输入 ， 仅 在 训练 阶段 才 使 用 。 通 常 ， 学 习 算 法 被 导出 ， 使 它们 优化 某 些 定义 的 误差 标 
Me (这 一 点 在 下 面 详 细 解 释 ) ， 导 出 LMS 算 法 。 

具有 数字 信号 处 理 背 景 的 读者 容易 把 线性 组 合 器 当 作 线 性 横向 滤波 器 [19] 或 有 限 冲 击 响应 
滤波 器 (finite impulse response, (FIR) filter)[20]。 确 实 ， 线 性 组 合 器 广泛 应 用 在 自 适应 信号 处 
理 中 [191。 为 了 得 到 线性 组 合 器 的 学 习 规 则 ， 最 通常 使 用 的 性 能 标准 是 最 小 化 网 络 输出 与 期 户 
响应 之 间 的 误差 平方 。 这 称 为 均值 平方 误差 (mean square error, MSE) 标准 。 从 MSE 标 准 得 
到 的 最 简单 学 习 规 则 是 最 小 均值 平方 (least mean-square, LMS) 学 习 规 则 ， 或 Widrow-Hoff 学 
习 规则 ， 或 delta 规 则 119]。 在 建立 LMS 学 习 规则 前 ， 先 了 解 用 于 确定 称 为 Wiener-Hopi 解 的 最 
优 权 值 向 量 w 的 传统 方法 [19, 211. 


[35 ; 
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图 2-14 简单 自 适 应 线性 组 合 器 


令 x (k)Flld (月 分 别 表示 训练 输入 和 期 望 响应 ， 在 第 kt 次 迭代 时 呈现 给 网 络 ;， 令 w (ORR 
前 网 络 的 权 值 向 量 。 式 (2-21) 给 出 线性 组 合 器 的 响应 和 误差 ， 即 期 望 响 应 与 网 络 响应 的 差 
异 ， 可 写 为 


e(k) = d(k) — v(k) = d(k) — wi(k) x(k) (2-22) 
假定 x (与 4 ( 昌 均 为 统计 上 宽 平 稳 总 体 ， 则 MSE 标 准 可 以 表示 成 由 
1 > 2 

Jw Elek- LE {ab -w oxo} | (2-23) 


给 出 的 总 体 平均 。 考 虑 到 学 习 规则 的 目的 是 适应 性 地 修改 网 络 权 值 以 使 式 (2-23) 最 小 化 。 
因此 ， 展 开 式 (2-23)， 可 以 写作 


JW) = ELA? (O) = EOT O WE +>" OEI) (Iw) (2-24) 
因为 x (Od ( 昌 是 寅 平稳 随机 过 程 ， 式 (2-24) 可 写 为 
JW) = ZEO- p w(k) + Tw (OC uw) (2-25) 


其 中 p =E {d (H) x (有 )} 表 示 期 望 响 应 与 输入 模式 之 间 的 互相 关 向 量 ，C.= E (x (D x ORR 
输入 模式 的 协 方差 矩阵 【考虑 到 输入 向 量 x (0 是 零 均 值 ] 。 等 式 (2-25) 是 突 触 权 值 的 一 次 图 
数 。 因 此 ， 对 于 所 有 网 络 权 值 式 (2-25) 均 为 正 。 在 权 值 向 量 空间 中 ， 对 于 J(w) 的 MSE 曲 面 
有 唯一 的 最 小 值 [19]。 因 此 ， 在 式 (2-25) 中 可 以 从 数学 上 计算 出 对 于 权 值 向 量 w 的 性 能 度量 
的 梯度 ， 用 于 最 优 条 件 ， 可 设 定 这 个 结果 为 0， 即 

oJ 


v Jw) = 2). pC, wk) =0 (2-26) 


关于 一 个 向 量 的 数量 微分 ， 其 详情 请 参看 A.3.4.1 节 。 另 外 在 式 (2-26) 中 MSE 关 于 权 值 向 量 
的 导数 是 连续 导数 ( 即 权 值 在 振幅 上 是 连续 的 )。 从 式 (2-26) 中 可 得 到 最 优 权 值 w 为 
w=C.'p (2-27) 


2È HAHHGHRKBE 27: 


等 式 (2-27) ERTELE A at BERI Wiener-Hopf fig iy lel ERE IBK[19). 
在 神经 网 络 与 信号 处 理 中 ， 式 (2-27) 的 实际 应 用 受到 限制 ， 有 两 点 原因 : (1) 求 协 方差 矩 
阵 的 逆 的 计算 量 非常 大 ，(2) 式 (2-27) 不 适合 于 权 值 的 联机 修改 ， 因 为 在 多 数 情况 下 协 方 
差 矩阵 和 互相 关 向 量 事先 并 不 知道 。 

为 了 克服 这 些 问题 ，Widrow 和 Hoff[11] 建 立 了 LMS 算 法 。 通 过 分 析 图 2-15 表 示 的 MSE 
曲面 的 特征 很 容易 解释 LMS 算 法 的 思想 ， 图 2-15 描 述 了 式 (2-25) 定义 的 一 个 典型 的 具有 两 
个 权 值 的 线性 组 合 器 的 误差 曲面 ， 即 w E 路” 。 为 了 在 J(w) 最 小 时 得 到 突 触 权 值 的 最 优 值 ， 
利用 梯度 下 降 法 搜索 误差 曲面 ， 找 到 最 小 值 ( 即 梯度 为 0 时 ) 。 这 和 在 式 (2-26) 中 设 定 
J (w) 的 梯度 等 于 0 的 思想 是 一 样 的 。 显 然 ， 通 过 沿 曲面 的 负 梯 度 方向 改变 权 值 可 到 达 图 2-15 [38] 
中 误差 曲面 的 底部 。 由 于 不 知道 输入 协 方差 矩阵 和 互相 关 向 量 时 不 能 计算 曲面 的 梯度 ， 所 以 在 
迭代 训练 过 程 中 必须 估计 它们 。 估 计 MSE 梯 度 曲 面 最 简单 的 、 因 此 也 是 最 粗略 的 方法 ， 可 以 
通过 取 肯 时 误差 曲面 的 梯度 得 到 。 即 在 式 (2-24) 中 去 掉 期 望 算 子 E(: )，J(w) 的 梯度 近 
似 为 


COAX XX XX 
{OOOO SD 


NX) 
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ANY 


N 
Ñ 





图 2-15 自 适 应 线性 组 合 器 的 典型 MSE 曲 面 


1 de7(k) 
V 二 
wl () = he 


w = w(k) 
ð 


2 T T T 
“Daw? (k)-2d(k)x (k)w(k)+w (k)x(k)x (k)w(k)] 


(2-28) 
=—d(k)x(k)+x(k)x" (k)w(k)=-d(k)x(k)+w" (k)x(k)x(k) 
=—[d(k) — w” (k)x(k)]x(k)=—e(k) x(k) 

e(k) 


利用 式 (2-28) 得 到 的 MSE 标 准 梯度 的 估计 结果 ， 运 用 最 速 下 降 梯 度 法 更 新 权 值 的 学 习 
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规则 可 写 为 

w(k + 1) = w(k) + u [~ V,J(w)] = wh + ue(k) x(k) (2-29) 
其 中 误差 e OER (2-22) 中 定义 ; 式 (2-22) 和 式 (2-29) 一 起 称 为 自 适应 线性 组 合 器 权 值 
更 新 的 LMS 算 法 。LMS 算 法 有 很 多 应 用 ， 如 自 适 应 平衡 和 噪音 的 消除 。 在 式 (2-29) 中 ， 实 
参 / > 0 通常 称 为 学 习 率 参数 。 它 指定 在 负 梯度 方向 权 值 更 新 步骤 的 幅度 。 若 / 值 选择 得 太 小 ， 
学 习 算法 将 缓慢 修改 权 值 ， 到 达 误 差 曲面 底部 需要 相当 多 的 和 迭代 次 数 。 另 一 方面 ， 若 学 习 参 
数 的 值 设 定 得 太 大 ， 学 习 规 则 可 能 变 得 在 数值 上 不 稳定 。 这 是 由 于 在 式 (2-28) 中 的 梯度 估 
计 使 用 了 近似 值 。 因 此 ， 学 习 参 数 设置 得 太 大 会 导致 对 误差 的 重复 加 倍 ， 使 权 值 不 收敛 ， 即 
可 能 的 发 散 问 题 。 从 式 (2-22) 和 式 (2-29) 中 可 分 别 直接 写 出 LMS 算 法 的 标量 形式 


e(k) = d(k)- > w, (Kx, (k) (2-30) 


和 
wik + 1) = w(K) + uelk) x(k) (2-31) 
其 中 := 1, 2,…, n( 即 对 所 有 突 触 权 值 )。 
对 于 LMS 算 法 的 连续 时 间 形 式 ， 学 习 率 参数 4 取 任意 大 而 不 影响 该 算 法 的 数值 稳定 性 。 然 
而 ， 对 于 式 (2-22) AIK (2-29) 的 离散 时 间 形式 ， 为 了 确保 稳定 性 ， 学 习 率 参数 必须 设置 
上 界 。 对 LMS 算 法 离散 时 间 形 式 的 收敛 性 质 的 严格 讨论 [19, 22] 建 立 了 





O<u< 2 


给 出 的 学 习 率 参数 的 界 ， 其 中 jw 代表 输入 协 方差 矩阵 C. 的 最 大 特征 值 。 简 单 地 说 ， 若 学 习 率 
参数 为 正 ， 上 界 为 2 / 1,,,， 则 LMS 算 法 按 均 值 收敛 。 为 了 使 LMS 算 法 收敛 ， 并 且 对 稳定 性 的 
影响 减 小 ， 则 学 习 率 参 数 可 接受 值 通常 限制 为 : 


(2-32) 


2 
<— 
trace{C, } 


不 等 式 (2-33) 可 由 LMS 算 法 的 均 方 收 化 分 析 得 到 。 在 式 (2-33) 中 的 学 习 率 参数 的 界 比 式 
(2-32) 中 的 更 保守 。 这 是 事实 ， 因 为 


trace{C,} = > A, = > Cu Z Ammax (2-34) 
= =! 


O<yu (2-33) 


[23], HPA = 1, 2,…, n, Con 是 协 方差 矩阵 C, 的 对 角 线 元 素 ， 并 且 妃 是 C, 的 特征 值 ， 且 非 负 。 
所 以 ， 如 果 LMS 算 法 在 均 方 意义 下 收敛 ， 那 么 它 也 按 均 值 收 敛 。 然 而 ， 相 反 的 情形 是 不 正确 
的 。 而 且 ， 协 方差 乍 阵 的 迹 等 于 总 的 输入 功率 。 从 而 ， 在 式 (2-33) 中 ， 上 界 可 理解 为 输入 
功率 总 和 倒数 的 两 倍 。 

式 (2-32) 和 式 (2-33) 假定 我 们 至 少 有 一 个 输入 协 方差 矩阵 的 估计 。 在 大 多 数 情况 下 ， 
要 得 到 这 种 估计 是 相当 困难 的 。 然 而 ， 即 使 协 方差 矩阵 的 估计 是 可 得 到 的 ， 我 们 也 常设 定 学 
习 率 参数 为 固定 值 。 虽 然 ， 固 定 学 习 率 参数 值 是 产生 最 速 下 降 算 法 的 最 简单 形式 ， 但 是 随时 
间 改 变 学 习 率 参数 也 许 更 适合 。 固 定 学 习 率 参数 (即使 选择 它 使 得 LMS 算 法 收 你 ) 的 最 主要 
的 问题 之 一 是 结果 的 精度。 就 是 说 ， 若 固定 的 学 习 率 参 数 设 置 相对 较 大 ， 则 突 触 权 值 的 数值 
精度 直接 取决 于 该 参数 值 。 参 数值 越 小 ， 结 果 越 精确 。 然 而 ， 若 学 习 率 参数 设置 相当 小 ， 
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LMS 算 法 的 收 和 敛 是 极其 缓慢 的 。 在 随机 逼近 论 里 ， 它 可 以 追溯 到 Robbins 和 Monro 的 求 根 算法 
1951[241， 学 习 率 参数 随时 间 变 化 。 在 随机 逼近 文献 中 ， 最 常用 的 形式 为 


K 
u(k) = 天 (2-35) 


其 中 x 为 常量 。 若 x 选择 相当 小 ， 式 (2-35) 将 保证 随机 逼近 算法 的 收敛 [25, 26], Mak (2-35) 
中 可 知 ， 随 着 训练 的 进行 ，4 值 将 减 小 。 相 反 ， 若 x 选择 太 大 ， 例 如 超出 式 (2-32) 给 出 的 范 
围 ， 则 即使 对 于 小 的 时 间 步 长 k， 算 法 也 将 发 生发 散 。 

采用 式 (2-35) 中 的 随机 逼近 进度 表 的 基本 问题 是 学 习 率 参数 在 初始 阶段 迅速 减 小 。 合 
理 的 学 习 过 程 似乎 是 ，4 在 训练 开始 阶段 很 大 ， 然 后 随 着 网 络 收 合 逐 渐 减 小 。 这 正好 是 
Darken 和 Meoody[27] 的 搜索 而 且 收 敛 算 法 所 要 完成 的 。 在 搜索 而 且 收 敛 策略 的 第 一 阶段 〈 称 
为 搜索 阶段 ) 4 相当 大 ,并 且 几 平 是 常数 ( 即 u 减 小 得 非常 慢 )， 在 第 二 阶段 ( 称 为 收敛 阶段 ) ， 
/指数 减少 到 0。 式 (2-36) 给 出 了 学 习 率 参数 的 自 适应 调整 的 最 简单 形式 。 





__i 
MO) = TT (2-36) 


TEX (2-36) F, mo > Ofir >> 1 ( 称 为 搜索 时 间 常 量 )。 然 而 ， 通 常 100<T<500。 如 果 适 当 

地 选择 uo 和 Tt， 用 于 简单 自 适应 线性 组 合 器 的 训练 的 LMS 算 法 ,收敛 速度 可 以 得 到 极 大 改进 
(参看 例 2.1) 。 这 些 调整 学 习 率 参数 的 方法 通常 称 为 学 习 率 进度 表 。 从 式 (2-36) 中 可 知 ， 对 
于 小 上 《 即 & 自 适应 的 开始 阶段 ) ，K 相 对 于 搜索 时 间 常 数 z 来 说 很 小 , 由 (D= mm。 因 此 ， 算 法 基 

本 表现 为 具有 固定 学 习 率 参数 Lo 的 典型 LMS 算 法 。 然 而 ， 若 t 相 对 于 搜索 时 间 常 数 t 很 大 时 ， 

则 4 的 适应 性 本 质 上 由 式 (2-35) 给 出 的 随机 逼近 进度 表 ， 其 中 k = tho。 理 想 情 况 下 ， 式 (2- 

36) 中 的 pj 应 在 式 (2-33) 所 允许 的 范围 内 取 相 对 较 大 的 值 。 图 2-16 对 于 LMS 学 习 率 参数 ， 

给 出 了 随机 逼近 和 搜索 然后 收敛 的 进度 表 的 比较 。 在 式 (2-36) 中 关于 /给 出 了 很 多 不 同 的 简 
单调 度 策略 ， 例 如 ， 参 看 [28, 29], 


传统 LMS 算 法 


搜索 然后 收敛 进度 表 









& 107? (t = 200) 

3 
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w 

Ez] 

® 10-4 

10° 10! 102 103 104 
k [对 数 尺度 ] 


图 2-16 两 个 学 习 率 进度 表 的 比较 : 随机 逼近 调度 和 搜索 且 收 敛 调 度 


用 于 调整 学 习 率 参数 的 另 一 种 方法 是 非 调度 类 型 的 调整 ， 它 像 随 机 逼近 和 搜索 且 收 敛 调 
度 一 样 随 着 时 间 值 不 断 减 小 。 相 反 ， 第 三 种 方法 在 调整 学 习 率 参数 的 意义 下 是 自 适 应 正规 化 
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的 方法 ， 它 按照 每 时 间 步 的 输入 数据 来 调整 u 值 





Ho 
k)= - 
uk) ESTE (2-37) 


其 中 mm 是 固定 常量 。 若 0 < 16< 2， 则 可 以 确保 稳定 。 然 而 ， 实 际 范围 是 0.1 <py<1[16, 22], # 
2-1 总 结 了 简单 自 适应 线性 组 合 器 使 用 式 (2-36) 中 给 出 的 运用 搜索 然后 收敛 策略 调整 学 习 率 
参数 的 LMS 算 法 。 在 式 (2-35) 中 的 随机 逼近 进度 表 或 在 式 (2-37) 中 的 自 适 应 正规 化 方法 ， 
甚至 常量 学 习 率 参数 (对 传统 LMS 算 法 ) 均 可 替代 表 2-1 中 用 于 调整 学 习 率 参数 的 搜索 然后 收 
BUNT EER 


2-1 LMS 算 法 的 小 结 


步骤 1 k= 1. 初始 化 突 触 权 值 向 量 w (k= 1)， 并 且 为 to 和 T 选 值 。 
步骤 2 ”该 邵 下 公式 计算 学 习 率 参数 





He 
k)= 
MO- T krr 
步骤 3 URE 
otk) = dK- E w, R) 
步骤 4 Ep Ea fiw (k+ Daw, (A+ (de (a (kK) i=1,2,.,n, 


步骤 5 wori. Bik. BM, kok +1, AE He BH MR, 


例 2.1 ”这 个 例子 说 明 自 适 应 线性 组 合 器 通过 LMS 算 法 训练 来 估计 线性 模型 的 参数 。 输 入 
数据 由 1 000 个 有 三 个 分 量 的 零 均值 高 斯 随机 向 量 组 成 ， 也 就 是 ，x E 吕 ”“， 并 且 偏 置 设 为 零 ， 
KP = 0。x 的 分 量 的 方差 分 别 是 5，1 和 0.5。 假 定 的 线性 模型 由 b = [1, 0.8， 一 1] 给 定 。 为 了 产 
生日 奈 值 (期望 输出 )，1 000 个 输入 向 量 用 来 形成 一 个 矩阵 三 = Dez xz ooo]， 期 望 输出 按照 4 
= 疡 天 米 计 算 。 向 量 输入 信号 的 协 方差 矩阵 可 以 佑 计 为 [30] 

C lS = XX" 
1000 4 1000 
在 表 2-1 中 使 用 LMS 算 法 ， 其 中 取 值 Mo = Zag = 0.1936 ， 其 中 Xus* 是 协 方差 矩阵 C, 的 最 大 特征 
ffl. v= 200 (搜索 时 间 常 量 ) ， 输 入 向 量 与 相应 期 望 输出 值 一 起 提交 给 线性 组 合 器 。 用 于 结束 
学 习 过 程 的 标准 包括 监测 每 次 执行 步骤 上 的 MSE 值 的 平方 根 。 当 YJ =41/2e (k) S108, 5] 
过 程 结 束 ， 其 中 e(k) = d (k)— wl (k) x (k)。 突 触 权 值 向 量 初始 值 选 作为 零 均值 的 高 斯 随机 数 ， 
其 方差 为 0.25，wiwisa = [— 0.304 3, 一 0.819 5, 0.385 5]。LMS 学 习 过 程 在 仅仅 204 次 迭代 后 
(训练 时 期 ) 结束 。 换 名 话说， 在 前 204 个 输入 向 量 与 相应 期 望 输出 值 提 交 后 ， 网 络 收敛 。 最 
后 的 突 触 权 值 矩阵 是 wr = [1.000 000, 0.800 000, — 1.000 000] ， 它 恰好 是 假定 的 线性 模式 8 
(直到 六 位 小 数位 置 )。 事 实 上 ， 线 性 模式 5 与 最 后 权 值 向 量 Wsww 的 差异 的 范式 是 骨 一 wenalls = 
1.505 404 x 10““。 图 2-17 显 示 出 学 习 率 参数 按照 搜索 然后 收 化 进度 表 来 调整 的 进展 。 正 如 我 们 从 
图 上 看 到 的 , 在 训练 的 开始 阶段 ,4 并 没有 太 大 的 改变 ， 然 后 在 训练 的 结束 阶段 它 变 小 了 很 多 。 
图 2-18 显 示 出 性 能 度量 的 均 方 根 值 (RMS)， 也 就 是 说 ， VJ 随 网 络 训 练 改变 。 这 个 练习 与 估 
计 一 个 参数 向 量 的 系统 辨识 问题 相似 ， 仅 仅 给 定 来 自 系统 的 输入 /输出 数据 估计 系统 的 动态 模 
型 相关 的 一 个 参数 常量 ， 即 参数 系统 识别 [31]。 
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Ho = 0.9 max = 0.1936 
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图 2-17 用 于 搜索 然后 收敛 进度 表 的 学 习 率 
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图 2-18 由 LMS 算 法 训练 的 自 适应 线性 组 合 器 的 收敛 


2.5.2 自 适应 线性 单元 


Adaline ( 自 适应 线性 单元 ) 是 利用 LMS 算 法 训练 的 自 适应 模式 分 类 网 络 。Adaline 是 许多 
神经 网 络 使 用 到 的 基本 构件 块 。 图 2-19 给 出 了 Adaline 的 结构 [11, 16]。 可 以 看 出 该 网 络 由 线性 
组 合 器 和 对 称 硬 限 幅 器 (或 对 称 硬 限 幅 量化 器 ) 串联 而 成 ， 即 符号 函数 。 对 称 硬 限 幅 量化 器 
产生 双 极 (+1) 输出 ，y( = sgn[u(D]， 虽 然 这 不 是 一 个 限制 ， 比 如 也 可 以 使 用 硬 限 幅 器 产 
生 的 二 元 输出 {0, 1}。 与 常量 输入 xo(k) = 1 相连 接 的 可 调整 偏 置 权 值 wo(k) = 8， 有 效 地 控制 量 
化 器 的 阅 值 水 平 。 在 网 络 训练 期 间 ， 由 期 望 输出 和 线性 组 合 器 输出 的 差异 产生 误差 ， 结 果 误 
差 称 为 线性 误差 。 线 性 误差 是 前 面 章 节 所 讨论 的 LMS 学 习 算 法 的 基础 。 描 述 误差 的 另外 方法 
是 采用 期 望 输出 和 对 称 硬 限 幅 器 的 输出 的 差异 。 这 个 误差 称 为 量化 器 误差 ， 如 图 2-19 所 示 ， 
它 是 感知 器 学 习 规则 (参考 2.6 节 ) 的 基础 。 因 此 ，Adaline 和 感知 器 非常 相似 ， 在 2.6 节 将 讨 
论 它 们 的 不 同 。 

在 Adaline 训 练 期 间 ， 输 入 向 量 x = [1, ,x2,…, x] EE 潜 '*'*!' 和 相应 目标 (或 期 望 输出 ) 值 
(d © 3) 提交 给 网 络 。 根 据 线 性 LMS 算 法 ， 突 触 权 值 w = [8, w wa ,wj ER ey Hh 
变 。 在 训练 Adaline 之 后 ， 提 交 输 入 向 量 给 具有 固定 权 值 的 网 络 将 导致 一 个 标量 输出 。 央 此， 
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As BL ne Tl 2S RRE OSR). Adaline lak, A FASTA es Be. 
因此 ， 训 练 过 程 等 同 于 自 适应 线性 组 合 器 的 训练 过 程 。 对 称 硬 限 幅 器 (量化 器 ) 仅 在 训练 了 
Adaline 之 后 才 使 用 。 一 旦 适当 调整 了 权 值 ， 可 以 利用 在 训练 阶段 没有 用 过 的 各 种 输入 测试 所 
训练 神经 元 的 响应 。 若 Adaline 产 生 响 应 (输出 ) 与 测试 输入 以 很 高 的 概率 相 容 ， 则 可 以 说 产 
生 了 泛 化 。 训 练 和 泛 化 过 程 是 Adaline 的 两 个 非常 重要 属性 ， 一 般 来 说 对 神经 网 络 也 一 样 。 
Adaiine 的 一 个 常见 应 用 是 少 部 分 逻辑 函数 的 实现 ， 如 : AND、NOT、OR 和 MAJ (多 数 ) 2 
辑 函 数 [9, 321。 只 有 这 些 线性 可 分 的 逻辑 函数 能 利用 单个 Adaline 实 现 。 其 中 ， 三 个 逻辑 函数 
在 数学 上 可 表示 为 


ysm ($ x) rt-n] ANDG era em (2-38) 
` 1, 车 有 xj=+ 1 

be fy tb t (2-39) 

yas $ a- masona an 1 为 大 多 数 (2-40) 








符号 函数 〈 对 称 
硬 限 幅 量 化 器 ) 





自 适应 算法 l 
dÐ MERRE 
ak) 
图 2-19 自 适应 线性 单元 


图 2-20 给 出 了 分 别 由 式 (2-38)、 式 (2-39) 和 式 (2-40) 中 的 AND, OR 和 MAJ 逻 辑 函 数 的 单 
个 神经 元 (Adaline) 实现 。 
线性 可 分 性 
当 提 交 一 个 输入 模式 时 ，Adaline 产 生 一 1 或 1 的 输出 (假定 对 称 硬 限 幅 器 激活 函数 )。 从 而 ， 
Adaiine 充 当 将 所 有 可 能 输入 分 成 两 类 的 分 类 器 。 如 图 2-21 所 示 ， 考 虑 Adaline 有 2 个 输入 的 简 
单 例子 。 虽 然 实际 上 有 3 个 输入 ， 但 通常 假定 一 个 念 置 〈 阀 值 ) 。 线 性 组 合 器 的 输出 可 表示 为 
u(k) = w, (k)x (k) + w, (k)x (k) + wa(k) (2-41) 
vik) 的 符号 决定 了 硬 限 幅 器 的 输出 ， 故 此 分 类 的 边界 线 定 义 为 
u(k) = 0 (2-42) 
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即 
w, (k)x, (K) + w, (ke), (k) + wolk) = 0 (2-43) 
或 
wE) gy Wolk) 
(b= tO (2-44) 








x(k) O 


n 


图 2-20 a)AND, b) OR 和 c) MAJI $8 ra HI SHH (Adaline) 实现 。 对 于 c) 中 的 MAJ 
(多 数 ) 逻辑 函数 ，n 总 假定 为 奇数 


x(k) = 1 





图 2-21 两 个 输入 的 Adaline 
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等 式 (2-44) 表示 为 输入 向 量 的 二 维 向 量 空间 的 一 条 直线 。 如 图 2-22 所 示 。 


x2 


分 离 直 线 


N 








wi(h) wolk) 
wh) O wO 





x(k) =- 





x 


v(k)>0 


v(D <0 


45 图 2-22 Adaline 的 线性 可 分 性 
i 
47 从 图 2-22 中 可 以 看 出 直线 把 输入 空间 分 割 成 了 两 个 域 ， 即 w(b > Of (1) < 0。 所 有 属 


于 同一 区 域 的 输入 向 量 将 分 在 同一 类 ,不 是 1， 就 是 一 1。 若 输入 向 量 (不 包括 偏 置 ) 是 3 维 的 ， 
则 区 域 将 被 平面 分 割 。 若 输入 向 量 的 维 数 大 于 3， 则 边界 将 是 超 平面 的 。 一 般 来 说 ，Adaline 
代表 线性 分 类 器 ， 因 此 Adaline 的 应 用 限制 在 输入 模式 是 线性 可 分 离 的 。 为 了 说 明 这 一 点 ， 考 
虑 图 2-23 的 例子 。 假 设 训练 的 网 络 完成 对 图 2-23 所 示 的 分 离 边界 表示 的 输入 空间 进行 分 离 。 
在 这 种 情况 下 ， 由 于 边界 不 是 直线 ， 则 不 存在 线性 可 分 ， 故 Adaline 不 能 完成 该 任务 。 


x2 






v(k)>0 


v(k) <0 


| 图 2-23 非 线性 分 离 问题 


具有 非 线性 变 接 输 入 的 Adaline (3 RAF AR) 
为 了 解决 非 线 性 可 分 离 的 模式 分 类 问题 ，Adaline 的 输入 可 由 固定 非 线性 进行 预 处 理 。 有 
用 的 非 线 性 包括 多 项 式 函 数 预 处 理 网 络 输入 [16]。 考 虑 如 图 2-24 所 示 的 具有 二 维 输入 的 网 络 。 
在 这 种 情形 下 ， 输 入 到 对 称 硬 限 幅 器 的 信号 可 表示 为 : 
u(k) = walk) +w, (k)x? + wy (K) x, +w, (k)xix, + Wy (AX, + w,(K)X5 (2-45) 
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权 值 更 新 算法 





图 2-24 带 有 非 线性 变换 输入 的 Adaline 


当 式 (2-45) 中 u( 扣 置 为 0 时 ， 产 生 用 于 这 个 具有 非 线性 变换 输入 的 Adaline 的 临界 值 条 件 。 如 
图 2-25 所 示 ， 这 个 条 件 表示 二 维 输入 向 量 空间 的 椭圆 ， 也 是 非 NOR (XNOR) 问题 的 解 。 通 过 
引入 输入 层 的 非 线性 ， 产 生 了 非 直 线 的 分 离 边 界 ( 即 ， 椭 贺 分 离 边 界 )。 因 此 ， 若 恰当 选择 非 
线性 ， 可 以 训练 网 络 将 输入 空间 分 割 成 两 个 非 线性 可 分 离子 空间 。 通 常 ， 具 有 非 线性 变换 输 
入 的 Adaline 可 以 使 用 与 训练 线性 Adaline 网 络 一 样 的 方式 进行 [16]。 

dENOR A 








iA 输出 2 

(+1, +1) — +1 

ce a nm 
(+1,- Pe 边界 


Xi 


of Adaline 的 输出 = 一 1 


图 2-25 实现 带 有 椭圆 分 离 边界 的 非 线性 可 分 离 函 数 〈 非 NOR 函 数 ， 即 ，XNOR)。 对 于 这 类 
逻辑 门 的 代数 表示 为 y= xx) +5,X,=%,0x,, He x) 表示 的 NOT (或 补 操作 ) 


如 上 面 例子 所 示 ， 非 线性 的 应 用 可 以 推广 到 大 于 二 维 的 网 络 输入 和 许多 其 他 类 型 的 非 线 
性 。 运 用 非 线 性 函数 变换 网 络 输入 的 显著 优点 是 构成 非 线性 分 离 边 界 成 为 可 能 。 因 此 ， 通 过 
采用 单一 Adaline 可 以 实现 许多 自 适应 非 线性 判别 图 数 [16]。Specht[33，34] 利 用 多 项 式 判别 国 
数 来 分 类 和 分 析 心 电 图 (ECG) 数据 ， 并 且 在 这 个 领域 的 其 他 工作 可 以 在 [35-38] 中 找到 。 
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线性 误差 修正 规则 

对 于 Adaline， 有 两 个 基本 的 线性 修正 规则 用 来 自 适应 调整 网 络 的 突 触 权 值 ， 分 别称 为 4- 
LMS 和 Qa-LMS。 对 于 这 些 线性 修正 规则 ， 网 络 权 值 的 改变 与 线性 组 合 器 的 输出 和 期 望 的 输出 
演 号 的 差 成 比例 。n-LMS 学 习 规则 同 式 (2-22) 和 式 (2-29) 给 出 的 简单 自 适应 线性 组 合 器 
的 LMS 学 习 规则 相同 。 而 a-LMS 学 习 规 则 可 视 为 -LMS 学 习 规则 的 自 适应 正规 化 形式 。 根 据 
a-LMS 学 习 规 则 更 新 网 络 的 权 值 为 
e(k)x(k) 
Ear 
其 中 e (WH (2-22) 给 出 。 比 较 式 (2-37) 中 用 于 调整 在 式 (2-22) 和 式 (2-29) 中 的 LMS 
算法 的 学 习 率 参数 的 自 适应 正规 化 方法 和 在 式 (2-46) 中 的 a-LMS 学 习 规则 ， 我 们 发 现 uo = a 
时 二 者 相同 。 而且， 比较 式 (2-22) 和 式 (2-29) 中 传统 的 LMS 算 法 (具有 固定 的 学 习 率 参 
Be) 与 式 (2-46) 中 的 a-LMS 学 习 规则 ， 我 们 看 出 两 个 学 习 规则 的 唯一 不 同 在 于 a-LMS 算 法 
的 正规 化 项 。 然 而 ， 对 于 两 种 学 习 规则 机 理 的 解释 是 完全 不 同 的 。 具 体 地 说 ，a-LMS 算 法 是 
依照 最 小 化 扰动 原理 设计 的 [16]， 即 ， 为 了 恰当 响应 新 的 输入 模式 而 调整 时 ， 前 面 的 训练 模式 
的 响应 (平均 ) 受到 扰动 最 小 。 因 此 ，n-LMS 建 立 在 MSE 曲 面 的 最 小 化 ， 而 a-LMS 更 新 权 值 ， 
以 便 减 小 当前 误差 。 为 了 阐明 这 一 点 ， 对 于 a-LMS， 误 差 的 改变 可 写 为 [16] 


Ae(k) = e(k +1) - e(k) = [d(k) - wk +1)’ x(k)] - elk) 


e(k)x! (k) 
Il x(k) I 


wk +l)=w(k)+a 





(2-46) 





= Jd(k)-|w' (k 
| [ora (2-47) 


þol — e(k) 
elk)x" (k)x(k) 


7 K TG IP 


| — e(k) = -ae(k) 
Fast (2-47) 我 们 发 现 a = 一 Ae (有 ) /e (Kk)， 它 代表 了 误差 相对 变化 或 是 训练 过 程 每 一 步 修 正 的 
当前 部 分 的 误差 。c 的 选择 控制 稳定 性 和 收敛 速度 [221，c 的 通常 设置 范围 是 
O.l<a<1 (2-48) 

a-LMS 算 法 中 a 的 选择 不 依赖 于 网 络 输入 的 幅度 ， 从 这 一 角度 来 说 它 是 自 正规 化 的 。 当 
输入 是 双 极 值 [一 1, 1] 时 ， 在 式 (2-46) 中 正规 化 项 lix(AD)VB 等 同 于 权 值 数目 ， 且 不 随 输 入 模式 
的 变化 而 变化 。 然 而 ， 若 输入 是 二 值 [0, 1] 时 ， 对 于 这 些 具 有 零 输入 的 权 值 不 会 发 生 调整 ， 但 
对 于 双 极 值 输入 ， 所 有 网 络 权 值 每 次 循环 均 调整 ， 且 收敛 趋 于 更 快 。 因 此 ， 双 极 值 输入 模式 
一 般 常 用 。 

HLMS 和 Co-LMS 学 习 规则 的 详细 比较 

由 下 面 的 方式 演示 4-LMS 和 a-LMS 学 习 规 则 的 关系 。 由 式 (2-46) 给 出 的 a-LMS 算 法 开始 
e(k)x(k) 
Il x(k) I 


[d(k) — w" (k)x(k) x(k) 
E (2-49) 


w(k+1)=w(k)+a 





=w(k)+a 


d(k) Tik x(k) x(k) 


=wk)+a w 
x(k) Ul, x(k) Il, | x(k), 
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d(k) 


aby A 
a(k) S Il x(k) I, 





(2-50) 


app, A x(k) 

CO 一 TCF 
分 别 作 为 正规 化 期 望 响 应 和 正规 化 训练 向 量 。 使 用 式 (2-50) 和 式 (2-51) 的 定义 ， 能 够 把 
R (2-49) 改写 成 





(2-51) 


w(k +1) = w(k)+ da - w Daoa (2-52) 


它 同 ALMS 学 习 规则 的 形式 一 样 。 因 此 ， 我 们 可 以 得 出 结论 : 对 于 正规 化 输入 模式 而 言 ，c- 
LMS 算 法 表示 4-LMS 算 法 的 学 习 策 略 。 

虽然 Qa-LMS 算 法 在 分 析 和 实现 方面 比 -LMS 算 法 复杂 些 ， 但 对 于 给 定 的 传播 给 网 络 权 值 
梯度 噪声 水 平 而 言 ， 当 相关 联 的 协 方差 矩阵 C, =E {xx"} 有 相对 大 的 特征 值 范 围 时 ， 可 以 证 明 
有 更 快 的 收敛 [16]。 梯 度 噪 声 是 梯度 估计 和 实际 梯度 之 间 的 差异 。 然 而 ， 可 以 证 明 L-LMS 具 有 
收敛 到 MSE 曲 面 的 最 小 点 的 优点 ， 而 a-LMS 对 于 非 双 极 值 输入 在 均值 意义 下 收敛 到 最 优 最 小 
二 乘 解 的 近似 值 [16]。 而 且 ， 当 输入 模式 具有 相同 的 范 数 〈 如 均 为 双 极 值 输入 ) 时 ， 这 两 个 学 
习 规 则 将 产生 相同 的 结果 。 

非 线性 权 值 修正 规则 

已 经 证 明 在 某 些 情 况 下 ， 前 面 给 出 的 线性 权 值 修 正规 则 不 能 分 隔 某 些 线性 可 分 离 的 训练 
模式 [39]。 当 出 现 这 种 情况 时 ， 使 用 非 线性 学 习 规则 是 有 助 于 网 络 权 值 的 调整 。 我 们 将 在 2.6 
节 讨 论 学 习 规则 的 这 些 类 型 。 


2.5.3 多 重 自 适应 线性 单元 


我 们 在 2.5.2 节 已 经 阐述 ， 除 非 使 用 输入 的 非 线 性 变换 ， 单 个 Adaline 不 能 解决 分 离 边 界 是 
非 线 性 的 输入 空间 分 离 问题 。 解 决 非 线 性 分 离 问 题 (不 是 网 络 非 线性 变换 输入 ) 的 方法 之 一 
是 应 用 Madaline (多 重 Adaline) 网 络 。Madaline 网 络 的 基本 结构 是 由 几 个 Adaline 结 合成 的 单 
一 前 馈 组 织 构成 。Madaline 网 络 的 基本 类 型 有 两 种 : 称 为 Madaline I 和 Madaline II。Madaline I 
是 最 先 被 Widrow[15] 和 Hoff[42] 引 入 的 单 层 网 络 。 由 三 个 Adaline 构 成 的 Madaline I 结构 的 例子 
如 图 2-26 所 示 。 为 了 产生 Madaline I 网 络 的 输出 y (K)， 把 固定 逻辑 函数 (如 OR、AND 或 MAJ 
逻辑 基 元 ) 应 用 于 Adalines 的 输出 ，Madaline II 结构 是 具有 多 输出 的 多 层 网 络 [32，43 ，44] 。 
Madaline 了 结构 的 例子 如 图 2-27 所 示 。 在 这 一 点 上 ， 讨 论 计 算 多 层 网 络 层 数 是 重要 的 ， 多 层 网 
络 层 数 定义 为 拥有 处 理 单元 的 总 层 数 。 因 此 ， 在 计算 多 层 网 络 的 总 层 数 时 不 考虑 输入 层 。 例 : 
如 图 2-27 所 示 ， 有 两 层 处 理 单元 ， 则 Madaline II 为 两 层 网 络 。 

在 讨论 调整 Madaline 权 值 的 方法 之 前 ， 先 讨论 XNOR 和 问题 并 考虑 用 Madaline 结 构 实 现 这 一 
逻辑 函数 。 由 两 个 Adaline 构 成 的 两 输入 Madaline I 结构 如 图 2-28 所 示 。Adaline 的 两 输出 传递 
给 逻辑 AND 门 ， 逻 辑 AND 的 输出 y 给 出 逻辑 值 1 或 一 1。 两 线性 组 合 器 的 输出 设置 为 0， 即 : 
v,(k) = 0 和 v2(k) = 0， 将 在 两 维 输入 (模式 ) 空间 构成 两 条 边界 线 
WaW y e- Pok 


aW- O 1 wo (k) 


(2-53) 


和 
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网 络 权 值 w) 其 中 i: 神经 元 
让 输入 





图 2-26 包含 三 个 Adaline 的 Madaline I 网 络 的 例子 
第 1 层 适应 权 值 第 2 层 适应 权 值 





图 2-28 XNOR 多 辑 函 数 的 Madaline I 实现 
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walk) (k) - V2 
wa(k) | wa (k) 

ASA4REMSGUA, SALA LAARA RAXNORR H ARAIRE, on 2-29 
所 示 。 


x(k) 三 一 





(2-54) 


__ wu) _ Wolk) 
x)= wa(k) zW wa(k) 


JENOR A% X2 分 离 边 界线 
输入 输出 <- 
(+1, +1) — +1 
(-1,-1) 一 > +1 ， 


(+1, -1) — -1 f Madaline 的 输出 = +1 












Xl 


__ Wath) Wolk) 
e x(k) == walk) x 1k) 7 Wa 月 








图 2-29 用 于 XNOR 问 题 的 Madaline I 分 离 属性 

Madaline ¥ 3 % 

调整 Madaline 权 值 有 两 个 基本 学 习 策 略 {16]。 第 一 个 是 Madaline 规 则 IOMRI) ， 它 是 
Madaline I 权 值 自 适应 的 学 习 策 略 132，43]。 在 图 2-26 所 示 的 Madaline Ith, EE e 
是 MAJ 国 数 ， 权 值 更 新 算法 将 调整 权 值 ， 修 正 相 对 于 期 望 响 应 4 的 输出 ”。 网 络 权 值 最 初 设置 
为 任意 小 的 值 。 此 学 习 策 略 有 许多 不 同 的 变化 ， 如 : 绝对 修正 (或 “快速 ”学 习 ) 或 运用 a- 
LMS 算 法 统计 (或 “ 慢 速 ") 学 习 。 基 本 思想 是 调整 线性 输出 vw ( 妇 最 接近 0 的 那些 神经 元 的 权 
值 ( 即 ， 模 拟 响 应 最 靠近 期 望 响 应 的 神经 元 ) ， 因 为 这 些 权 值 反 转 其 输出 响应 只 需要 最 小 的 权 
值 变 化 。 一 般 地 ， 为 了 修正 输出 决策 和 任何 “ 死 区 ”约束 ， 仅仅 调整 必需 的 神经 元 ， 在 这 个 
意义 下 MRI 遵循 最 小 扰动 原则 。 使 用 MRI 算法 有 可 能 “ 挂 停 ” 在 那些 局 部 极 小 值 上 [161]。 第 二 
个 基本 学 习 策 略 是 Madaline 规 则 ICOMRID ， 是 MRI 的 扩展 [44]。 如 MRII 将 用 来 调整 图 2-27 所 示 
的 两 县 MRII 结 构 的 权 值 。 最 初 ， 权 值 设 置 为 任意 小 的 值 。 训 练 模式 以 随机 方式 提出 ， 以 最 小 
化 训练 集 上 的 平均 汉 明 误差 为 目标 。 与 MRI 算法 一 样 ，MRII 也 可 能 “ 挂 停 ” 在 局 部 极 小 值 上 
[16]。 在 这 些 学 习 策略 中 达 不 到 目标 的 重要 成 分 是 通过 结构 反 向 传播 误差 的 能 力 ， 这 种 结构 可 
能 用 于 调整 网 络 权 值 [16]。 这 是 能 用 于 多 层 前 馈 网 络 的 反 向 传播 学 习 规 则 。 第 3 章 将 详细 地 讨 
论 反 向 传播 。 


2.6 简单 感知 器 


正如 今天 我 们 所 知道 的 ， 简 单 感 知 器 ( 单 层 感知 器 ) 也 许 对 神经 网 络 有 非常 重要 的 影响 ， 
这 如 同 在 2.5.2 节 提 到 的 ， 与 Adaline 非 常 类 似 。 虽 然 有 儿 种 不 同类 型 的 感知 器 ， 但 是 20 世 纪 50 
年 代 末 期 ，Frank Rosenblatt[40, 41, 45] 提 出 了 原始 概念 以 及 调整 网 络 权 值 的 学 习 程 序 。 他 的 
感知 器 以 神经 元 的 McCulloch-Pitts 模 型 为 基础 [2]。 其 他 感知 器 概念 在 Block[46] 和 Minsky 和 
Papert[47, 48] 的 著作 中 提 到 。 从 使 用 感知 器 不 能 解决 的 问题 类 型 的 角度 ，Minsky 和 Papert[47] 
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讨论 了 感知 器 的 局 限 性 。 其 中 一 个 重要 的 局 限 性 就 是 感知 器 不 能 解决 异 或 (XOR) 问题 。 但 
后 来 证 实 只 要 有 恰当 的 处 理 层 ， 感 知 器 可 以 解决 XOR 问 题 ， 或 者 用 它 的 更 一 般 的 形式 ， 奇偶 
ge [49]。 尽 管 Minsky 和 Papert 举 例 说 明了 简单 感知 器 的 局 限 性 ， 然 而 ， 在 20 世 纪 70 年 代 关 
于 神经 网 络 研究 仍 在 继续 。 简 单 〈 单 层 ) 感知 器 与 称 为 最 大 似 然 高 斯 分 类 器 [1, 50] 的 典型 模 
式 分 类 器 密切 相关 ， 二 者 都 可 以 认为 是 线性 分 类 器 [51。 

大 多 数 感知 器 是 根据 监督 学 习 规则 训练 的 ， 但 一 些 感知 器 是 自 组 织 的 。 在 Rosenblatt 的 早 
期 研究 中 ， 感 知 器 有 三 层 : 第 一 层 是 感觉 曲面 (“视网膜 ")， 它 投影 到 下 一 层 ， 他 称 为 联想 区 
域 ,， 且 具有 局 部 化 的 随机 连接 。 联 想 区 域 也 称 为 A 单元 ( 即 ， 联 想 单 元 )，A 单 元 与 第 三 层 和 
最 后 一 层 互 逆 连接 ， 构 成 R 个 单元 ( 即 ， 人 者 应 单元 ) 。 对 于 给 定 的 输入 模式 (或 输入 模式 类 ) 
激活 适当 的 R 单 元 并且 同 一 时 间 只 允许 数 活 一 个 人 单元 。 一 系列 的 互 逆 连接 用 于 完成 这 一 任 
务 ， 因 此 ， 当 一 个 R 单 元 被 激活 时 ， 它 间接 地 抑制 其 他 竞争 者 。 作 为 许多 神经 网 络 模型 的 一 部 
分 ， 胜 者 全 得 系统 有 相似 的 行为 [52]。 

图 2-19 可 视 为 简单 感知 器 。 在 Rosenblatt 的 原始 感知 器 中 输入 是 二 值 的 ， 不 包括 偏 置 。 在 
这 里 我 们 考虑 双 极 值 输入 和 与 神经 元 有 关 的 偏 置 。 根 据 图 2-19， 神 经 元 的 输出 y E {一 1, i 是 对 
称 硬 限 幅 器 ( 即 量 化 器 ) 的 输出 , 从 期 望 输出 4E {一 1, 1} 减 去 之 后 ， 构 成 量化 器 误差 。 。 量 化 器 
误差 用 来 调整 神经 元 的 突 触 权 值 。 调 整 神经 元 权 值 (感知 器 学 习 规 则 [16]) 的 自 适应 算法 如 下 

w(k +1) = wk)+ Ox) (2-55) 

其 中 量化 器 误差 为 
&(k) = dlk) ~ sgn[w! (k)x(k)] = d(k) ~ yk) (2-56) 
而 Rosenblatt 通 常设 定式 (2-55) 中 的 a 为 单位 值 。 与 a-LMS 算 法 不 同 ， 学 习 率 参数 a 的 选择 不 
影响 感知 器 学 习 规 则 的 数值 稳定 性 。 然 而 ，a 会 影响 收敛 速度 。 如 在 Adaline 中 那样 ， 由 于 用 
( 非 线性 的 ) 量化 器 误差 代替 线性 误差 ， 所 以 感知 器 学 习 规则 是 非 线性 算法 。 在 王 确 分 类 所 有 


”输入 模式 之 前 ， 感 知 器 学 习 规 则 执行 权 值 更 新 。 此 后 ， 对 于 所 有 训练 模式 输入 ， 量 化 器 误差 为 


0， 不 再 发 生 权 值 调整 。 由 于 此 学 习 规则 不 是 基于 定义 好 的 优化 准则 ， 因 此 ， 在 任何 意义 下 不 
能 保证 权 值 是 最 优 的 。 感 知 器 的 学 习 规 则 同 Widrow-Hoff 的 delta 规 则 相似 。 但 是 ， 其 行为 是 极 
为 不 同 的 [16]。 比 较 式 (2-46) 中 oa-LMS 算 法 与 式 (2-55) 中 的 感知 器 学 习 规 则 ， 我 们 发 现 ， 
车 式 (2-46) 中 的 正规 化 线性 误差 DVIx( 久 有 用 2(k)/2 (量化 器 误差 的 一 半 ) 来 代替 ， 可 以 
得 到 式 (2-55) 中 的 感知 器 学 习 规则 。 与 Adaline 的 学 习 规 则 不 同 ， 已 经 证 明 感 知 器 学 习 规则 可 
以 分 离 任何 线性 可 分 离 的 训练 模式 [39, 41, 46, 53]。 在 这 里 我 们 将 不 讨论 如 何 对 简单 感知 器 的 
误差 修正 学 习 算 法 做 收敛 分 析 ， 关 于 这 方面 的 资料 可 参考 其 他 书籍 [1, 48, 50, 54, 55]。 


2.6.1 Mays 感 知 器 学 习 规 则 


Mays 提 出 了 标准 感知 器 学 习 规则 的 两 个 修正 算法 [16]。 这 两 个 修正 算法 均 使 用 所 谓 的 死 
亡 区 ， 在 零点 附近 +yY。 若 线性 组 合 器 的 幅度 小 于 yYy， 即 1v()| < Y， 则 线性 组 合 器 的 输出 v (如 
(如 图 2-19 所 示 ) 在 死亡 区 内 。Mays 的 权 值 自 适应 算法 可 以 总 结 如 下 。 


Mays 的 增 量 自 过 应 算法 
_ k 
w+ (ke 如 果 lulb|>y 
WO + ad ky OE an Rv} < y 
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其 中 eck) (量化 器 误差 ) ÆA (2-56) 中 给 出 。 若 死亡 区 设置 为 0， 则 Mays 的 增 量 自 适 应 算 
法 变 为 式 (2-55) 给 出 的 感知 器 学 习 规则 的 规范 化 形式 。 若 训练 模式 线性 可 分 离 ，Mays 已 证 
明 他 的 增 量 自 适应 算法 总 是 收敛 的 ， 能 在 有 限 步 内 分 离 模式 。 对 于 训练 模式 是 非 线性 可 分 的 
情形 ， 由 于 死亡 区 的 原因 ，Mays 的 增 量 自 适 应 算法 通常 会 优 于 标准 感知 器 学 习 规 则 。 由 于 存 
在 非常 合理 的 解 ， 足 够 大 的 死亡 区 将 导致 权 值 向 量 的 自 适 应 远离 0， 并 且 停 留 在 一 个 具有 相对 
低 的 平均 误差 的 区 域 。 对 于 标准 感知 器 学 习 规则 ， 非 线性 可 分 离 输入 模式 导致 训练 无 法 终结 ， 
县 常常 无 法 产生 低 误差 解 (即使 解 存在 ) 。 特 别 是 这 种 情况 下 ， 权 值 向 量 趋向 于 0 。Mays 也 已 
经 证 实 ， 死 亡 区 降低 了 权 值 对 于 误差 的 灵敏 性 。 在 Mays 之 前 ， 已 经 有 人 从 不 同 角度 提出 了 增 
量 自 适应 算法 [46]。 


Mays 的 修正 松弛 算法 为 
w(k) 如 果 lu (I> y Al e(k) =0 
wk +1) = J wk) + ae(k) x(k) 其 他 (2-58) 
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其 中 ， EOAR (2-56) 中 给 出 的 量化 器 误差 ，e (OA (2-22) 中 给 出 的 用 于 简单 自 适 应 线 
性 组 合 器 的 线性 误差 。 用 于 感知 器 的 这 个 学 习 规则 像 以 前 用 于 Adaline 的 a-LMS 算 法 ， 当 死亡 
区 趋 于 无 穷 时 (y > %)， 修 正 的 松弛 算法 允 近 标准 感知 器 学 习 规则 。 对 于 死亡 区 0 < y < 1 和 学 
习 率 0 < ac 和 2， 修 正 松 弛 算法 确保 收敛 性 ， 并 且 在 有 限 步 内 分 离 任何 线性 可 分 离 输入 模式 。 
然而 ， 若 输入 模式 非 线 性 可 分 离 ， 算 法 将 与 Mays 的 增 量 自 适应 算法 相似 。Mays 的 两 个 感知 器 
学 习 算 法 均 获 得 与 模式 分 离 相似 的 结果 ， 对 于 标准 感知 器 学 习 规则 ， 数 值 稳定 性 都 不 受 学 习 
率 a 选 择 的 影响 。 

前 面 对 于 训练 简单 感知 器 的 所 有 讨论 均 没 有 涉及 基于 定义 的 性 能 度量 的 学 习 策 略 。 在 
John Shynk1990[56] 把 感知 器 学 习 算法 视 为 基于 近代 最 小 化 的 瞬时 性 能 函数 的 最 速 下 降 方法 ， 
还 导出 了 另 一 个 感知 器 学 习 规则 。 


2.6.2 具有 S 形 激活 函数 的 简单 感知 器 


下 面 考虑 图 2-30 所 示 的 具有 S 形 激活 函数 的 简单 感知 器 替代 以 前 使 用 的 如 图 2-19 所 示 的 对 
称 硬 限 幅 器 。 像 Widrow 和 Hoff 的 LMS 算 法 一 样 ， 在 这 种 情况 下 的 感知 器 学 习 规则 以 最 速 下 降 
方法 为 基础 ， 试 图 最 优化 瞬时 性 能 函数 。 从 基于 MSE 的 性 能 度量 导出 用 于 调整 网 络 权 值 的 学 
习 规则 ， 即 


J(w,) = TREH) (2-59) 


其 中 E (K) = d (k) - y, (k) W 2-302 HAAR ER, EL: AMARAT. Ai, AER 
限制 ， 最 小 化 的 瞬时 性 能 函数 给 出 为 


J(w,) = Taw = 了 4 -y(DP = sla) - 2d, (k)y, (k) + 2) (2-60) 
其 中 
y,(k) =f lu (K) =f K) w(D+g (2-61) 
假定 $ 形 激活 函数 是 双 曲 正切 S 形 函数 ， 见 式 (2-14)。 因 此 ， 图 2-30 中 的 神经 元 输出 可 写 为 
yk) = firs [vo] = tanh [av (k)] (2-62) 
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S 形 激活 国 数 
IO 神经 元 响应 
(输出 ) 


(k) 


向 量 输入 信和 号 
x(k eR”! 


期 望 神经 


dD 
?元 响应 


E(k) 非 线性 误差 


x( 有 ee 只 "xx1C 一 一 权 值 更 新 算法 


图 2-30 带 有 S 形 激活 函数 的 简单 感知 器 。 这 可 能 是 多 层 前 馈 感 知 器 的 第 4 个 神经 元 (参看 2.7 节 ) 
其 中 a 为 函数 的 倾斜 参数 。 为 了 方便 ， 我 们 将 省 上 略 双 曲 正 切 S 形 函数 式 (2-62) AP HR “hts”, 
根据 式 (2-15)， 双 曲 正 切 $S 形 函数 关于 神经 元 激活 水 平 u 的 导数 为 
glu) =f [v4] = a {1—f° lvk) (2-63) 
我 们 考虑 的 突 触 权 值 在 幅度 上 是 连续 的 ， 而 在 时 间 上 是 离散 的 ， 因 此 ， 式 (2-63) 中 的 激活 
函数 的 导数 是 连续 导数 。 在 图 2-30 中 ， 上 有 具有 S 形 激活 函数 的 感知 器 的 离散 时 间 学 习 规 则 采用 最 
速 下 降 方 法 ， 有 下 面 的 形式 
w(k + 1)= w(K)—uV Iw) (2-64) 
其 中 是 离散 时 间 指 标 ， 而 Two) 是 式 (2-60) 给 出 的 瞬时 性 能 函数 。 计 算式 (2-64) 的 梯度 公 
式 为 
Ve Jw) = -d (K)f Tu, RXR + flu, RF Tv, (x(k) 
={-d,(k)+ flu, (OF Tv, Ax’) 
eb (2-65) 
= —é, (k) flu, (A) x(k) 
根据 式 (2-63), RITES [v, (D] = a (1-f? fu, (ORAR (2-65) 中 ， 得 
V Jw) = -ae (k){1- 户 [fu (A) x(k) = -aë (KL ~ y3 (x(k) 
yi(k) 
从 而 ， 利 用 式 (2-66) 的 梯度 结果 ， 对 于 简单 感知 器 由 式 (2-64) 我 们 可 写 出 离散 时 间 学 习 
规则 (以 向 量 形式 ) 


(2-66) 


w, (k +1) =w, (k) + pa, (DIL - y; (Eek) (2-67) 
HE (2-67) 可 写成 标量 形式 
wa (k +1) = wy (k) + na’, (KI - y? (klx; (k) (2-68) 


其 中 j =], 2, ,ho 从 图 2-30 可 得 
Z (k) = dR -yk) (2-69) 
和 
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y (D= flu, (A)] = |S x,(k)w,)(k) + 0, (2-70) 


对 于 图 2-30 所 示 的 训练 简单 感知 器 ， 式 (2-68)、 式 (2-69) 和 式 (2-70) 认为 是 反 向 
传播 训练 算法 的 标准 形式 [57]。 反 向 传播 训练 算法 在 第 3 章 中 扩展 至 前 馈 多 层 感 知 器 。 同 2.3 
节 讨 论 的 一 样 ， 二 值 S 形 函数 和 双 曲 正切 S 形 函数 的 导数 可 由 它们 的 原 函 数 表 示 。 这 一 点 可 
从 式 (2-63) 中 的 双 曲 正切 S 形 函数 看 出 。 显 然 ， 对 于 激活 函数 来 说 ， 这 是 一 个 非常 有 价值 
的 特征 。 

例 2.2 在 这 个 例子 中 ， 我 们 使 用 图 2-30 所 示 的 具有 S 形 激活 函数 的 简单 感知 器 来 学 习 一 个 
字符 ， 也 就 是 BE 字符 ， 如 图 2-31a 所 示 。 该 字符 (图像 ) 由 25 个 像素 组 成 ， 即 ， 一 个 5 x 5 像素 
数组 。 图 像 中 黑色 像素 给 定 值 为 数字 1;“ 关 闭 ”( 白 色 ) 像素 给 定 值 为 数字 0。 所 以 ， 二 值 数 
组 为 方形 ， 且 vec 运 算 (参看 A.2.17 节 ) 作用 于 这 个 数组 ， 将 产生 一 个 用 于 训练 感知 器 的 25 x 
1 的 二 值 向 量 ， 

x=[1111110101101011000100000] 


1 1 


2 2 
3 3 
4 4 


5 


5 





1 2 3 4 5 
a) b) c) 


图 2-31 a) 原始 E 字 符 ，b) 用 于 “测试 ”的 原始 字符 的 修正 ，c) 另 一 个 用 于 测试 的 原始 字符 的 修正 


1 2 3 4 5 1 2 3 -4 5 


使 用 式 (2-67) 的 感知 器 学 习 规 则 ，c = 1， 且 学 习 率 参数 设置 为 4 = 0.25。 期 望 的 神经 
元 响应 设置 为 4 = 0.5， 即 训练 完成 后 辨识 字符 E 的 数值 ， 而 输入 模式 ， 上 面 表示 的 向 量 x 提交 
给 神经 元 。10- 5 为 终止 训练 的 误差 目标 。 换 名 话说， 当期 望 响 应 4 和 实际 响应 ?的 差异 的 平方 
小 于 10-s 时 ， 停 止 神经 元 训练 。 神 经 元 的 初始 权 值 是 随机 的 ， 在 输入 模式 提交 39 次 之 后 ， 实 
际 神经 元 输出 为 y = 0.500 09。 图 2-32 显 示 了 在 训练 过 程 中 神经 元 输出 误差 的 情况 。 对 字符 识 
别 采 用 神经 计算 方法 的 一 个 吸引 人 之 处 在 于 网 络 “ 校 正 ”或 对 噪声 污染 的 输入 的 补偿 能 力 。 
在 这 个 例子 中 ， 可 以 证 明 : 单个 神经 元 不 能 校正 有 噪声 的 输入 ， 也 就 是 说 ， 它 不 具备 单独 校 
正 误差 的 能 力 。 例 如 : 若 修 改 E 如 图 2-31b 所 示 ， 结 果 输 入 到 单个 神经 元 产生 y = 0.520 4 的 输 
出 。 这 是 一 个 相对 接近 确认 “真实 ”E 的 实际 值 ， 因 为 修改 后 的 图 像 看 起 来 和 E 相 似 。 但 是 ， 
简单 感知 器 没有 执行 任何 的 误差 校正 。 若 修改 E 如 图 2-31c 所 示 ， 结 果 神 经 元 的 输出 为 y= 
0.680 5, 这 与 E 的 真实 目标 值 相 差 更 远 。 现 在 图 2-31c 的 图 像 看 起 来 更 像 C。 但 是 ， 这 仅仅 为 了 
识别 E 而 训练 的 神经 元 ， 却 不 知道 假定 C“ 看 起 来 像 ”代表 什么 意思 。 很 明显 ， 需 要 更 多 的 神 
经 元 不 仅仅 是 为 了 允许 对 噪声 输入 的 补偿 ， 而 是 为 了 识别 更 多 的 字符 。 这 个 可 以 利用 多 层 感 
知 器 (参考 3.3 节 ) 来 实现 。 当 我 们 研究 霍 普 非 尔 德 联想 记忆 (245.3%) 时 ， 将 证 明 这 个 
递归 网 络 具有 对 提交 给 它 的 有 噪声 或 不 完整 的 输入 进行 补偿 的 能 力 ， 并 且 具 备 识别 许多 不 同 
字符 的 能 力 。 
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图 2-32 训练 期 间 和 迭 代数 目 与 神经 元 输出 误差 的 平方 


2.7 前 馈 多 层 感 知 器 


图 2-33 给 出 了 一 个 具有 三 层 的 标准 前 馈 多 层 感知 器 (MLP)。 这 类 结构 是 大 量具 有 神经 元 
级 联 层 的 前 馈 神 经 网 络 的 组 成 部 分 。 这 种 神经 网 络 结构 具有 一 个 共同 特征 : 同一 层 (有 时 称 
AM) 的 所 有 神经 元 通过 单 向 分 支 连 接 邻 近 层 的 所 有 神经 元 。 即 分 支 或 连接 仅 能 向 一 个 方向 
即 “ 前 馈 方向 ”传递 信息 。 与 分 支 相 联 系 的 传送 物质 ， 即 突 触 权 值 ， 能 根据 确定 的 学 习 规则 
调整 。 前 馈 网 络 不 允许 此 结构 的 任何 层 内 的 神经 元 之 间 相 互 连 接 。 对 于 每 一 个 神经 元 ， 线 性 
组 合 器 的 输出 ， 即 神经 元 沂 活 水 平 u-"， 是 非 线 性 激活 函数 太 : ) 的 输入 , 它 的 输出 是 神经 元 的 响 
应 。 网 络 中 神经 元 的 典型 激活 水 平 范围 为 [- 1，1]， 在 一 些 应 用 中 使 用 [0, 1]。 在 图 2-33 中 实 
际 有 四 层 。 但 是 在 2.5.3 节 中 ， 多 层 网 络 的 层 数 定义 为 只 有 处 理 单元 的 总 层 数 。 从 而 ， 在 图 2-33 
中 我 们 看 到 “0” 层 (或 输入 层 ) 不 执行 任何 计算 ， 只 馈送 输入 信号 给 “第 一 ” 层 〈 第 一 隐藏 
E) 神经 元 。 第 一 隐藏 层 的 输入 提交 给 第 二 隐藏 层 (“第 二 ” 层 ) 神经 元 ， 第 二 层 神 经 元 的 输 
出 是 “第 三 ” 层 (或 输出 层 ) 的 输入 。 输 出 层 的 输出 是 网 络 响应 向 量 。 我 们 可 以 称 这 类 结构 
h-p-m 的 前 馈 MLP 神 经 网 络 ， 即 有 个 神经 元 (节点 ) 在 第 一 层 〈 第 一 隐藏 层 ) ，P 个 神经 元 在 第 
ZE (第 二 隐藏 层 ) ，m 个 节点 在 第 三 层 (输出 层 ) 。 因 此 ， 网 络 能 执行 非 线 性 输入 /输出 映射 
Q: RHR" 。 通 常 ， 该 结构 中 隐藏 层 层 数 可 以 任意 多 。 然 而 ， 从 实践 角度 看 ， 仅 有 一 个 
或 两 个 隐藏 层 应 用 最 广泛 。 事 实 上 ， 可 以 证 明 只 有 一 个 隐藏 层 ， 且 具有 足够 多 神经 元 的 MLP 
可 以 充当 非 线 性 映射 的 通用 逼近 器 (参考 3.3.2 节 )。 

在 图 2-33 中 , 每 一 层 均 有 从 前 一 层 连接 到 下 一 层 对 应 的 突 触 权 值 矩 阵 ， 即 WO, 4= 1, 2, 3。 
第 一 野 权 值 矩阵 WY = [wW] E RR*"*， 第 二 层 的 权 值 矩阵 WY = [w0] E w, AS RHA 
S5REw = [w0] E R”, Hei = 1,2,…,n,j=1,2,…,h,r=1,2,…,p,$=1,2,…,m。 从 
图 2-33 中 ， 可 直接 定义 非 线 性 输入 一 输出 映射 吕 ， RIOR, AE MM PH ER PhS 
算 和 矩阵 





f° OE diagl fl), FOL) OPT (2-71) 
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(第 1 层 的 激活 水 (第 2 层 的 权 (第 3 层 的 数 
权 值 矩阵 ) 。 平 向 量 ) 值 矩 阵 ) “(第 2 层 的 EERE) 


a) 1 (1) (2) 3 
Whew P=) WO=(wO) gp W= 
一 一 一 人 一 人 一 一 一 一 一 





— 
输入 向 BIRRE 第 2 隐藏 层 输出 层 响应 向 量 
量 模式 h 个 神经 元 P 个 神经 元 mm 个 神经 元 (输出 ) 
xen”! yeR™™ 


图 2-33 前 馈 三 层 感知 器 体系 结构 ， 其 中 i=1,2,…,n, j=1,2,…,h, r=1,2,.…,p,s=1,2,…， 
m, fC) 是 在 第 一 层 中 每 个 神经 元 的 非 线性 激活 函数 ，f"(. ) 是 在 第 二 层 中 每 个 神 
经 元 的 非 线性 激活 函数 ，/ 2(' ) 是 在 第 三 层 中 每 个 神经 元 的 非 线 性 激活 函数 。 每 个 
神经 元 有 一 个 偏 置 (RRE) 


它 的 维 数 取决 于 Z。 当 = lit, fOO eh x 1 的 对 角 称 阵 ， 当 = 2 时 , SOL ] 在 维 数 上 是 p xp， 当 和 
3 时 ,，f[:] 是 m xm 维 。 给 定 网 络 输入 向 量 x CR, BRR Hx ER AY SA 


Xo =f? [VP] =f {WX] (2-72) 
它 是 第 二 层 的 输入 。 第 二 层 的 输出 xu ER ABA 
Kou = SP [WP] =f [Wx] (2-73) 
它 是 第 三 层 的 输入 。 第 三 层 的 输出 是 网 络 的 响应 y = xy E R ARRA 
Y = Xou = FO [VP] = FO Wx] (2-74) 


将 式 (2-72) RAR (2-73) 代 赫 xom， 再 将 这 个 结果 代入 式 (2-74) 代替 x。wz， 网 络 最 终 响 
应 为 
y=f [WOFTW FOTW UXT] = 9 [x] (2-75) 

在 式 (2-75) 的 非 线性 映射 中 ， 假 定 突 触 权 值 是 固定 值 。 然 而 ， 在 适当 调整 权 值 以 获得 期 望 
映射 之 前 必须 执行 训练 处 理 ， 如 解决 模式 分 类 问题 。 关 于 用 反 向 传播 的 MLPs 训 练 细节 将 在 第 
3 章 讨论 。 
2.8 单个 神经 元 基本 学 习 规则 概述 

这 里 讲述 了 单个 神经 元 的 几 条 基本 学 习 规则 。 这 些 概念 可 扩展 到 多 维 网 络 〈 即 不 止 一 个 
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神经 元 的 网 络 ) 。 因 此 ， 在 随后 章节 中 将 运用 这 里 提 到 的 许多 学 习 规则 建立 更 复杂 的 神经 
结构 。 


2.8.1 广义 的 LMS 学 习 规 则 


2.5.1 节 提出 了 LMS 算 法 ， 它 最 初 为 了 讨论 简单 线性 组 合 器 权 值 的 自 适应 性 而 提出 。 接 着 
证 明了 利用 线性 误差 项 可 以 应 用 这 个 算法 训练 Adaline (参看 2.5.2 节 )。 紧 接着 ，LMS 算 法 的 
推广 导致 用 于 简单 ( 单 层 ) 感知 器 的 训练 算法 (参看 2.6 季 )。 最 后 ， 在 2.6.2 节 对 具有 S 形 激活 
函数 的 简单 感知 器 导出 学 习 规 则 。 这 里 我 们 想 建立 单个 神经 元 的 广义 学 习 规则 ， 从 这 个 一 般 
形式 导出 几 个 重要 变化 形式 。 首 先 ， 定 义 最 小 化 的 性 能 函数 (或 能 量 函 数 )， 记 作 : 


E(w) = TORE wi? (2-76) 


FEB llwil, de el wR IL ER (参看 附 A.2.13 节 )。 在 式 (2-76) Py ) 可 以 是 任何 可 微 
e=d-w x (2-77) 
其 中 d CRBS (线性 ) 输出 ，x E RN ”是 输入 向 量 ，w E 中 ”是 权 值 向 量 。 利 用 最 速 下 
降 方 法 ， 可 以 将 连续 时 间 的 学 习 规则 表示 为 一 组 向 量 微分 方程 的 形式 
dw ’ 
a TAVE w) (2-78) 
式 (2-78) 的 离散 时 间 形 式 可 以 写 为 : 
w(k + 1) = w(k)— BV, E(w) (2-79) 
其 中 w (= wk), 上 是 离散 时 间 项 ,TT 是 采样 周期 (然而 ， 为 了 不 失 一 般 性 ， 假 定 T 规 范 化 
到 单位 值 ， 即 T, = 1)。 采 样 周期 7 规范 化 是 因为 在 式 (2-78) 中 欧 拉 近 似 的 导数 可 写 为 [w (k + 
1) 一 w (1)]/T;,， 并 且 学 习 规 则 的 离散 时 间 形 式 为 
w(k+1)-w(k) _ 
= 


然而 ， 两 边 乘 以 采样 周期 7,， 两 思 再 加 上 w (k)， 将 采样 周期 ,与 学 习 率 参数 4 合并 ， 得 出 
A (2-79)。 在 2.5.1 节 中 ， 式 (2-32) 给 出 了 LMS 算 法 的 学 习 率 参数 的 取 值 范围 。 因 此 ， 不 管 
T. 的 实际 值 是 多 少 ， 为 了 确保 LMS 算 法 收敛 在 均值 意义 下 )， 必 须 满足 不 等 式 (2-32)。 计 算式 
(2-76) PREE PAY BB RE kn T 
aE(w) öyle) a aww 


-uUV,& (w) 


VEW) = 一 = ——— + ——— =y (e)(-x) + aw 
aw ow 2 aw EO (2-80) 
= —-g(e)x + aw 


利用 式 (2-78) 中 的 学 习 规 则 的 连续 时 间 形 式 和 式 (2-80) 中 的 梯度 结果 ， 我 们 可 以 写 出 一 
般 的 LMS 算 法 为 
o ulg(e)x - aw] (2-81) 
并 且 从 式 (2-79) ， 离 散 时 间 形 式 为 
w(k + 1) = w(k) + u [g(e) x(k) — aw(k)] (2-82) 
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其 中 h > 0 是 学 习 率 参数 ， 且 w> 0 是 泄漏 因子 。 若 在 式 (2-76) H, ARVOT (= 
KIM), Hy O=g (at, 其 中 的 旺 变量 ， 则 式 (2-81) TSH 


dw 


EP T MOR OW) = Bees PAW = Mex ye (2-83) 
而 式 (2-83) 的 离散 时 间 形 式 给 出 为 
wk + 1) = w(k) + nelk) x(k) — yw(k) =(1 — Y) w(k) + nelk) x(k) (2-84) 


其 中 0<y < 1 是 泄漏 因子 。 称 此 学 习 规 则 为 油 汤 LMS 算 法 。 现 在 ， 若 式 (2-84) 中 的 泄漏 因子 
设 为 0， 即 y = 0， 则 学 习 规 则 变 为 


w(k + 1)= w(k) + ue(k) x(k) (2-85) 
它 为 标准 LMS 算 法 [参看 式 (2-29) ]。 以 标量 形式 可 写 为 
wk + 1) = wi(k) + uelk) x(k) (2-86) 


对 | = 0, 1, 2, …, n， 其 中 elk) =d(k)- DK) 


标准 LMS 算 法 有 三 种 重要 变化 。 第 一 种 修改 涉及 在 式 (2-85) 右边 添加 动量 项 。 动 量 项 
的 目的 在 于 在 感受 到 平均 下 出 “ 力 ” 的 方向 上 提供 特定 惯量 (动量 )， 以 改变 权 值 向 量 ， 从 而 
避免 在 训练 过 程 中 持续 振荡 。 动 量 项 可 以 表示 为 当前 和 前 一 步 权 值 向 量 的 权 值 差异 ， 也 就 是 ， 
QAw(k) = a [w(k) - w(k—1)] (2-87) 
因此 , 式 (2-85) 可 重 写 为 
w(k + 1) = w(k) + pe(k) x(k) +a [w(k) — wk— 1)] (2-88) 
其 中 0 < a < 1 是 动量 参数 ， AX (2-88) 称 为 具有 动量 的 标准 LMS 算 法 。 
标准 LMS 算 法 的 第 二 种 变化 是 递归 加 权 最 小 二 乘 。 这 是 标准 算法 在 基于 自 回 归 滑 动 平 均 
(ARMA) 模型 [7, 31] 和 自 适 应 滤波 [19] 的 参数 系统 辨识 上 的 应 用 。 系 统 辨 识 问 题 通常 涉及 估 
计 与 严格 真 的 有 理 传 递 函 数 相 联系 的 参数 向 量 的 元 素 ， 或 涉及 线性 时 间 不 变 系统 正则 形式 的 
状态 空间 实现 〈 参 看 第 10 章 ) 。[7] 中 的 递归 加 权 最 小 二 乘 算法 涉及 参数 向 量 w E Rt, we 
HELER +, pos EP SR" APT = P 的 更 新 表达 式 。 参 数 向 量 的 更 新 表达 式 为 


w(k + 1) = w(k) + L(k + 1) elk) (2-89) 
增益 向 量 更 新 表达 式 为 
L(k + 1) = P(A) x(k) [A + x(k) P(k) x(k)! (2-90) 
和 加 权 和 矩阵 更 新 表达 式 为 
P(k+1)= =P) ~ Lk +1)x" (k)P(K)] (2-91) 
其 中 误差 项 e OA 
e(k) = d(k) - w"(k) x(k) (2-92) 
且 ) 决 定 加 权 类 型 ， 如 : 若 0< 入 < 1， 导 致 指数 加 权 递归 最 小 二 乘 。 将 式 (2-90) RAR (2-89) 得 
_ e(k)P(k)x(k) 
mk = WO) + A Px (2-93) 


wl(k) 
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因此 ， 修 改 后 的 突 触 权 值 向 量 更 新 表达 式 为 
w(k + 1) = w(K) + u(k) e(k) P(k) x(k) (2-94) 
其 中 
-~ 1 
A+ x" (kK)P(k)x(k) 
是 自 适应 学 习 率 参数 。 将 式 (2-90) RAR (2-91), WEER EI KARAR TE a FT 
写 为 


u(k) (2-95) 


P(k)x(k)x" (OPK 


P(k+1)= A +x" (k)P(A)x(k) 


P(k)- 


[P(k)- uk) PCR) x(k)x" (RPK)] (2-96) 


工 
À 
1 
À 
=U - (P(x x (KNPCE) 
Hast (2-96)， 加 权 和 矩阵 的 更 新 表达 式 可 写 为 

P(k +1) = A -HKCDP(GDx(Dxz (K)IP(k) (2-97) 


其 中 4 (有 昌 由 式 (2-95) 给 出 。 因 此 , 式 (2-94), HK (2-95) 和 式 (2-97) 组 成 递归 加 权 最 小 
二 乘 (RHWLS) 算法 。 

标准 LMS 算 法 的 第 三 种 变化 涉及 最 小 干扰 原则 (参看 2.5.2 节 )。 对 式 (2-46) 的 分 母 引 进 
正常 数 ， 这 样 确保 权 值 向 量 更 新 不 变 成 无 界 的 。 因 此 ， 修 改 的 规范 化 LMS 算 法 可 写 为 : 


e(k)x(k) | 


a+ Il x(k) IB (2-98) 


w(k +1) = w(k) + a 
其 中 az>0， 学 习 率 参 数 根据 0 < u< 2 来 设 ， 通 常 为 0.1 < 上 < 1 (BAK (2-48)), Douglas 
的 文章 中 [58]， 提 到 规范 化 的 LMS 算 法 的 变化 推广 。 这 导致 一 簇 基于 LL, 最 小 化 滤波 系数 变化 的 
类 似 投影 算法 集 。 标 准 的 LMS 算 法 还 有 其 他 变化 ， 在 Cichocki 和 Unbehauen[9] 中 可 找到 这 些 变 
化 的 总 结 。 表 2-2 小 结 了 本 节 讲 述 的 LMS 算 法 的 各 种 离散 时 间 形 式 。 


表 2-2 修改 的 LMS 算 法 (离散 时 间 ， 向 量 和 矩阵 形式 ) 


算法 名 称 算法 公式 
一 般 LMS 算 法 w(k+1)= w (k) + u Íg (e) x (A) — aw (k)}], u> 0, a>0 
泄漏 LMS 算 法 w(k+1)=(1—y) w (k) + ue (k) x (kK), w > 0,05 y< 1 
标准 LMS 算 法 w (k + 1) = w (k) + ue (A) x (kK), uw > 0 
具有 动量 的 标准 LMS 算 法 w (k+ 1) = (k) + pe (k) x (k) + a {w (k)—w (ko D], 
u>0,0<a<l 
递归 加 权 最 小 二 乘 (RWLS) 算法 w (k + 1) = w (k) + u (k) e (k) P (k) x (k) 
= — 1 
MO- roro °’ 


P(k+1)= TU ~ MOPO xk) (AIPA) 





a + |e), 
a 之 0,0 < 4<2, 通 常 0.1 <u<1 


修正 的 规范 化 LMS 算 法 mike mba e(k x(k) | 
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例 2.3 ”本 例 的 问题 与 例 2.1 相 同 。 比 较 表 2-2 中 除 普通 LMS 算 法 外 各 种 修改 的 LMS 算 法 和 
在 表 2-1 小 结 中 的 学 习 率 参数 的 搜索 然后 收敛 进度 表 的 标准 LMS 算 法 。 不 比较 分 析 普 通 的 LMS 
算法 ， 因 为 它 实际 上 是 另 一 类 鱼 棒 性 的 学 习 算 法 。 学 习 规则 的 这 些 类 型 将 在 第 8、9 章 讨论 。 
对 于 运行 在 模拟 环境 下 所 有 情况 ， 使 用 和 例 2.1 相 同 的 初始 权 值 向 量 ， 使 用 适当 的 与 例 2.1 中 相 
同 的 初始 学 习 率 即 po = 9%, = 0.1936 。RWLS 算 法 是 明显 的 例外 。 修 正 的 规范 化 LMS 算 法 是 
另 一 个 例外 。 对 于 该 学 习 规 则 ， 为 了 在 一 个 合理 数量 的 训练 步 又 中 达到 收敛 ,设置 比 46 = 
"Vw = 0.1936 大 得 多 的 学 习 率 参数 是 必要 的 。 另 外 ， 对 于 所 有 六 种 情况 ， 使 用 同样 的 学 习 过 


程 结束 标准 ， 像 例 2.1 讨 论 的 那样 ，RMS 值 V7 = se) <10, 其 中 e (k) =d (一 w (Dx k). 


对 于 每 个 LMS 算 法 ， 当 具体 参数 适当 时 ， 以 经 验 为 主 地 最 优化 来 产生 “最 好 的 ”性 能 结果 。 
表 2-3 给 出 了 模拟 结果 。 图 2-34 给 出 每 个 LMS 算 法 的 收敛 规则 ， 通 过 观察 表 2-3 和 图 2-34， 我 们 
明显 看 出 RWLS 算 法 是 较 好 的 学 习 规 则 。 


1010 


JP [对 数 尺度 ] 





0 5 10 15 20 25 30 35 
和 迭代 次 数 K 


J'? [对 数 尺度 ] 





—10 
10 0 50 100 150 200 250 
ERR BR 


J'? [对 数 尺 度 ] 





10 0 50 100 150 200 250 
ERK B 
图 2-34 每 个 LMS 算 法 的 收敛 大 致 情况 : a) 泄漏 LMS 算 法 (217 次 迭代 ) ，b) 标准 LMS 算 法 
(234 次 迭代 )，c) 带 有 动量 的 标准 LMS 算 法 (192K AR), ORWLSH (12k 
代 )，e) 修改 的 规范 化 LMS 算 法 BAKER): f) 带 有 搜索 然后 收敛 进度 表 的 标准 
LMS 算 法 (204738 ít) 


表 2-3 用 于 例 2.3 的 模拟 结果 





收敛 所 需 llb- Winall AKRA 





GE; HEE 、 
使 用 的 算法 相关 参数 训练 次 数 b = [1, 0.8, -1 
泄漏 LMS 算 法 My = 0.193 6, y= 107° 217 1.940 037 x 107° 
标准 LMS 算 法 Hy = 0.193 6 234 5.803 031 x 1077 


具有 动量 的 标准 LMS 算 法 u = 0.193 6, a = 0.01 192 1.077 056 x 1075 
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( 续 ) 
, 收敛 所 需 |B — Weinaill AKR, 
使 用 的 算法 相关 参数 -训练 次 数 b= [1,0.8, —1]" 
递归 加 权 最 小 二 乘 (RWLS) 
算法 à=0.1, P O)=4,, 12 3.105 226 x 107" 
人 m = 0.999, a =0.1 34 3.394 817 x 1077 
X RASVA VON 
准 LMS 算 法 lp = 0.193 6, T = 200 204 1.505 354 x 1077 
2.8.2 Hebb 学 习 


在 Donald Hebb[4，59] 的 最 初 工 作 中 ， 从 神经 生物 的 角度 提出 了 一 个 学 习 过 程 。 基 于 细胞 
团 的 概念 ，Hebb 认 为 皮质 网 络 里 的 一 些 细胞 子 集 倾向 于 按 功 能 单元 行动 ， 它 们 具有 整齐 的 激 
活 模式 ， 和 在 整个 网 络 中 突 触 强度 的 变化 一 致 5601。 细 胞 子 集 称 为 团 。 当 A 点 火 后 ， 在 非常 短 
的 时 间 延 迟 内 B 跟 着 点 火 。 对 于 这 种 情形 ，Hebb 认 为 在 A、B 细 胞 间 的 突 触 的 强度 稍微 增加 。 
即 突 触 任意 边 的 两 神经 元 同步 激活 ， 然 后 ， 突 触 强度 增加 。 然 而 ， 这 不 是 数学 描述 ，Hebb 也 
没有 提供 定量 的 数学 学 习 规 则 。 因 此 ， 定 义 的 几 个 数学 学 习 规 则 可 以 称 为 Hebb 突 触 。Stent 
[61] 和 Changeux 和 Danchin[62] 讲 述 了 Hebb 概 念 的 扩展 。 这 些 扩展 实质 上 是 对 Hebb 最 初 描 述 进 
行 了 扩充 ， 使 之 当 突 触 两 边 的 两 个 神经 元 异步 激活 时 导致 突 触 减弱 或 突 触 消除 。 此 外 ， 
Rumelhart 和 McClelland[57] 还 指出 Hebb 最 初 的 假设 对 于 定量 发 展 一 个 显 式 模型 是 不 够 的 。 他 
们 陈述 了 Hebb 最 初 规则 的 一 个 扩展 ， 考 虑 正和 负 激 活 值 如 下 : 

根据 它们 同时 激活 的 乘积 调整 单元 A 和 B 间 的 连接 强度 。e 
简单 地 说 ， 这 个 描述 暗示 ， 若 激活 的 乘积 是 正 的 ， 则 使 突 触 连接 的 修正 更 加 兴奋 ; 但 是 ， 若 
乘积 是 负 的 ， 则 更 加 抑制 对 突 触 连 接 的 修正 。 

现在 我 们 可 以 对 Hebb 突 触 更 精确 地 定义 。Hebb 突 触 定 义 为 这 样 一 个 突 触 ， 高 度 局 部 、 时 
间 依 赖 性 和 强 相互 作用 机 制 来 增强 突 触 有 效 性 ， 为 前 突 触 和 后 突 触 激 活水 平 相关 的 函数 [1]。 
从 这 个 定义 出 发 ，Hebb 突 触 的 四 个 主要 特性 可 陈述 如 下 [63]: (1) 时 间 依 赖 机 制 。 这 指 的 是 
Hebb 突 触 的 变化 取决 于 前 突 触 与 后 突 触 激活 水 平 同 时 发 生 的 准确 时 间 。(2) 局 部 机 制 。 在 突 
触 内 ， 在 前 后 突 触 单 元 内 不 断 发 展 的 激活 水 平 (局 部 可 用 信息 ) 被 Hebb 突 触 用 于 产生 输入 依 
赖 的 局 部 突 触 修正 。 在 由 Hebb 突 触 构成 的 神经 网 络 内 局 部 机 制 中 ， 为 非 监督 学 习 局 部 机 制 提 
供 方法 。(3) 相互 作用 机 制 。Hebb 学 习 的 任何 形式 依赖 于 (确定 的 或 统计 的 ) 前 突 触 和 后 突 
触 活动 的 相互 作用 。(4) 连接 (相关 ) 机 制 。 在 相对 短 的 时 间 间 隔 ,， “共同 发 生 ” 的 前 突 触 和 
后 突 触 活动 对 于 产生 突 触 修正 是 足够 的 。 因 此 ，Hebb 突 触 可 以 称 为 连接 突 触 (conjunctional 
synapse)。Hebb 学 习 假 设 的 另 一 个 观点 是 基于 Hebb 突 触 内 相互 作用 机 制 的 统计 特征 。 也 就 是 
说 ， 前 突 触 和 后 突 触 激 活 在 时 间 上 的 相关 性 确定 突 触 修 正 。 因 此 ，Hebb 突 触 也 可 称 为 相关 突 
fe (correlational synapse), 

我 们 可 以 在 Hebb 突 触 内 考虑 增强 或 减弱 激活 。 也 就 是 ， 连 接 一 对 神经 元 的 正 相 关 激 活 ， 
导致 突 触 加强 (或 提高 )， 然 而 ， 另 一 种 不 相关 或 负 相 关 激 活 产生 突 触 减弱 (CS AE HK) 
当前 罕 触 或 后 突 触 激活 不 是 同时 发 生 时 ， 突 触 训 减 也 可 能 发 生 。 突 触 活动 分 类 为 Hebb、 反 
Hebb 或 非 Hebb[64]。 相 应 地 ， 对 于 正 相 关 的 前 突 触 或 后 突 触 激 活 ，Hebb 突 触 增 强 它 的 强度 ， 
当 激 活 是 非 相 关 或 负 相 关 时 ， 强 度 下 降 。 反 Hebb 突 触 增强 负 相关 前 突 触 和 后 突 触 激活 ， 减 弱 





O 经 允许 引用 自 Rumelhart 和 McClelland{57]，p. 36, 
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正 相关 的 激活 。 非 Hebb 突 触 并 不 具有 Hebb 和 反 Hebb 突 触 的 强 交互 作用 、 高 度 局 部 、 时 间 依 赖 
机 制 。 

考虑 到 上 面 的 这 些 观点 ， 对 于 单一 神经 元 ， 可 以 从 如 下 定义 的 能 量 函 数 导出 标准 Hebb 学 
习 规 则 


E(w) = —y(w"x)+ 5 Iw IÈ (2-99) 


其 中 w © RR" Se ET (ERRE), x E R ERRATA, W OEM 
函数 ， 且 c>0 是 遗忘 因子 。 并 且 ， 


y= PO) fw) (2-100) 
. dv 
是 神经 元 输出 ， 其 中 =wrx E RERED., MARR TED RERA ARR 
& uy, Ew) (2-101) 


dt 
其 中 > 0 是 学 习 率 参数 。 我 们 可 以 看 出 式 (2-99) 中 关于 突 触 权 值 向 量 ， 能 量 函数 的 梯度 必 
须 计 算出 ， 即 V, Sw) = 9 Bw) / aw, HK (2-99) 的 梯度 可 表示 为 : 


ov 
Ve) Ayt = IE OW (2-102) 


因此 ， 利 用 式 (2-101) 和 式 (2-102) 的 结果 ， 单 个 神经 元 的 连续 时 间 标 准 Hebb 学 习 规 则 可 
写作 


Œ = yx aw] (2-103) 
离散 时 间 标 准 Hebb 学 习 规 则 (以 向 量 形式 ) 可 表示 为 : 
w(k+ 1) = w(k) + u fy) x(k) — aw(k)] (2-104) 
以 标量 离散 时 间 形 式 为 
w;(k + 1) = w/k) + u bd) x(k) — ow (0) (2-105) 
其 中 | =0, 1,…, n。 


可 以 从 更 一 般 的 情况 导出 上 面 的 结论 。Amari[65] 证 明 当 选择 合适 的 能 量 或 李 雅 普 诺 夫 函 
数 罗 (w) 时 ， 广 义 的 Hebb 学 习 规 则 可 以 看 作 是 梯度 优化 的 过 程 ， 即 


dw _ pL EW (2-106) 
dt ow 

得 到 的 广义 Hebb 学 习 规 则 的 结果 为 
W _ (px — aw) (2-107) 


dt 
其 中 Z Êw, x, v, y, ORF IEF, Ad E 中 是 期 望 信号 。 等 式 (2-107) 的 离散 时 间 形 式 可 
写 为 
wik +1) = wk) + ux(K) — aw(k)) 
= w(k)+ “eam + uk) x(k) (2-108) 
=(1-y )w(k) + ue(k) x(k) 
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其 中 4 > 0 且 0<y< 1 (遗忘 因子 )。 从 式 (2-107) 和 式 (2-108) 可 导出 学 习 算 法 的 许多 形式 。 
假定 只 根据 局 部 信号 调整 突 触 权 值 ， 且 假定 学 习 信 号 是 神经 元 的 输出 ， 则 可 从 式 (2-107) 立 
即 导 出 一 个 局 部 学 习 算法 ， 即 ， 从 式 (2-100) 得 


= y- WO) fo) (2-109) 
du 
从 而 ， 式 (2-107) BA 
dw 
q TOT) (2-110) 


EDK (2-103) 相同 。 式 (2-110) 中 出 现 的 yx 是 典型 的 Hebb 共 生 项 。 图 2-35 给 出 了 单个 神 
经 元 的 连续 时 间 标 准 Hebb 学 习 (局 部 学 习 ) 规则 。Hebb 学 习 规 则 有 许多 变化 形式 。 一 个 非常 
重要 的 扩展 是 Oja 学 习 规 则 。 






标准 Hebb f=y NO) (v) 


学 习 规则 








图 2-35 单个 神经 元 的 标准 Hebb 学 习 规 则 


2.8.3 Oja 学 习 规则 
利用 最 小 化 能 量 函 数 可 导出 Oja 学 习 规则 [66] 
Ew) Nen (2-111) 
其 中 
e=x-s (2-112) 
表示 误差 ， 给 定神 经 元 输入 和 估计 值 #。 做 两 个 基本 假设 :(1) 神经 元 突 触 权 值 向 量 是 规范 化 


的 ， 即 lwl = 1, (2) 假设 一 个 线性 激活 函数 ， 即 y = v =w x。 假 定 输入 估计 是 神经 元 输出 乘 
以 突 触 权 值 向量 ， 即 


k= wy (2-113) 
因此 ， 利 用 式 (2-112) 和 式 (2-113), 式 (2-111) 的 能 量 函 数 可 表示 为 


E(w) = > x-wyl?= Sa" -w y)\(x- wy) = sists -2w xy+w' wy’) (2-114) 
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利用 最 速 下 降 方法 ，Oija 连 续 时 间 学 习 规则 可 以 写 为 向 量 微分 方程 ， 如 下 
dw 


a7 BV WE Ow) (2-115) 
其 中 > 0 是 学 习 率 参数 。 计 算式 (2-114) 中 能 量 函 数 的 必要 梯度 为 
V,E(W) = —xy + wy? (2-116) 
将 式 (2-116) FEA (2-115) 中 ， 得 Oja 连 续 时 间 学 习 规则 
= play wy’) (2-117) 
其 中 
ysu=we (2-118) 


A (2-117) 中 右边 第 一 项 是 典型 的 Hebb 共 生 项 ， 第 二 项 是 活跃 衰减 (或 稳定 ) 项 ,通过 规范 
化 向 量 到 单位 长 度 ， 即 ilwil, = 1， 以 阻止 突 触 权 值 问 量变 得 无 界 。 
ER (2-117) 中 的 学 习 规 则 可 写 为 离散 时 间 形 式 如 下 


w(k +1) = w(k) + uy(k) [x(k) — w(K) y(k)] (2-119) 
式 (2-119) 的 标量 形式 可 写 为 
w)(k + 1)= wk) +uy(k) [xk — wi) yD] (2-120) 


对 /= 0, 1, A 

从 Hebb 学 习 的 典型 (简单 ) 形式 也 可 导出 Oja 学 习 规则 [66]。 我 们 仅 讨论 学 习 规则 的 离散 
时 间 标 量 形式 。 在 Hebb 学 习 的 简单 形式 中 ， 学 习 规 则 仅 包括 共生 项 ， 即 

w;(k + 1) = wh + uyl) x(k) (2-121) 

对 j = 0, 1,…, n。 这 一 简单 Hebb 学 习 形 式 代 表 了 Rumelhart 和 McClelland[57] 对 Hebb 最 初 提议 的 
一 个 推广 ， 其 在 2.8.2 节 强 用。 然而， 如 果 没 有 规范 化 (或 饱和 ) 形式 合并 入 学 习 规则 中 ， 式 
(2-121) 表示 的 学 习 规 则 将 导致 突 触 权 值 的 无 限 增 长 。Oja[66] 在 学 习 规 则 中 通过 将 式 (2-121) 
右边 除 以 神经 元 相关 突 触 的 整个 集 wj (k) + uy (K) x k) (包括 一 个 塑性 系数 ) 的 L, 范 数 来 实现 
规范 化 。 在 适当 的 假定 下 ， 得 到 的 规范 化 的 学 习 规 则 和 式 (2-120) 给 出 的 学 习 规 则 相同 。 由 
式 (2-121) 的 规范 化 导出 式 (2-120) 的 细节 将 在 9.3.1 节 给 出 。 当 我 们 研究 自 适应 抽取 主 成 
分 方法 时 ， 规 范 化 Hebb 的 Oja 学 习 规 则 在 第 9 章 将 变 得 非常 重要 (参看 9.3 节 )。 下 面 的 例子 证 
明了 这 一 点 。 

2.4 ”此 例 中 我 们 要 分 析 零 均值 随机 数据 ， 特 别 是 5 000 个 随机 向 量 ， 这 些 向 量 中 各 自分 
量 均 来 自 正 态 (高 斯 ) 分 布 。 第 一 个 分 量 有 一 个 10 的 方差 ， 其 他 两 个 有 相等 的 0.002 的 方差 。 
由 式 (2-119) 给 出 的 Oja 离 散 时 间 学 习 规 则 用 于 处 理 每 个 提交 给 单一 神经 元 学 习 规 则 的 连续 
向 量 ， 并 相应 地 调整 权 值 向 量 。 在 式 (2-119) 中 使 用 固定 的 学 习 率 参数 = 0.001。 使 用 一 个 
准则 决定 训练 是 否 足 够 。 这 可 以 简单 地 按 如 下 规则 监视 权 值 向 量 收 和 敛 过 程 的 进展 ， 

4B |lw — wik- TDlbs<10 一 一 停止 
否则 一 继续 
初始 权 值 向 量 随机 化 到 w (0) = [0.5949, —0.5585, 0.4811]7。 经 过 1 1824k (AN, (IXTI 182 
个 向 量 提交 给 单个 神经 元 ) 后 ， 达 到 收敛 。 最 后 的 突 触 权 值 向 量 是 
w = [1.0000, — 0.0007, 0.0002] 
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这 是 非常 接近 于 使 用 整个 数据 集合 ( 即 ， 所 有 5 000 个 向 量 ) 的 估计 方差 年 阵 的 第 一 主 成 分 。 
这 个 向 量 很 容易 计算 为 

_ w, = [1.0000, 0.0001, 0.0001] 
与 该 特征 向 量 相关 的 (最 大 的 ) 特征 值 是 = 9.9772。 可 以 用 适当 的 MATLAB 函 数 作 这 种 分 
析 。 由 Oja 学 习 规 则 可 发 现 ， 从 上 面 权 值 向 量 (w) 计 算出 的 特征 值 是 

À = var(w'X) = 9.9792 

FOX eR (所 有 5 000 个 随机 向 量 ) ， 并 且 相 应 近似 于 由 估计 协 方差 矩阵 计算 的 最 大 特征 
fi. varh EAKR (BRED) 方差 值 的 标准 MATLAB 函 数 。 图 2-36a 显 示 当 神经 
元 进行 训练 时 权 值 向 量 的 分 量 。 最 终 值 为 上 面 显示 在 权 值 向 量 w 中 的 那些 值 。 注 意 该 向 量 的 范 
数 本 质 上 为 1 ( 它 是 用 于 Oja 学 习 规则 的 约束 之 一 ) 。 图 2-36b 显 示 出 在 范 数 意义 下 权 值 向 量 残 
留 的 进展 。 
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图 2-36 a) 使 用 Oja 学 习 规 则 训练 期 间 ， 权 值 向 量 元 素 的 收敛 ，b) 训练 期 间 连 续 权 值 向 量 差 异 的 L, 范 数 
2.8.4 位 势 学 习 规 则 


由 于 位 势 学 习 不 依赖 于 期 望 的 信号 ， 所 以 ， 它 属于 无 监督 学 习 类 型 。 但 其 学 习 的 执行 完 
全 基于 内 部 电位 [65]， 也 就 是 vu， 神经 元 的 活动 水 平 。 位 势 学 习 规 则 能 够 通过 最 小 化 能 量 函 数 
来 导出 


E(w) = -yW x) + thw (2-122) 
其 中 a > 0，uw = wx， 并 且 W:) 是 损失 函数 。 式 (2-122) 关于 突 触 权 值 向 量 的 梯度 可 为 
V, Sw) = -LUX+ aw (2-123) 
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使 用 式 (2-106) 中 的 Amari 结 果 和 式 (2-123) 的 梯度 ， 我 们 得 到 连续 时 间 位 势 学 习 规则 


= u[Av)x - aw] (2-124) 
A (2-124) 的 离散 时 间 形 式 可 以 写 为 
w(k + 1) = wk) +u [A(v) x(k) - aw(k)] (2-125) 
离散 时 间 标 量 形式 是 
w, (k + 1) = wk) +u |A(v) x(k) - aw)] (2-126) 
其 中 j = 0, 1,…, n。 


2.8.5 相关 学 习 规 则 
通过 最 小 化 如 下 能 量 函 数 ， 能 够 导出 相关 学 习 规 则 
E(w) = -dw"x + lw (2-127) 
其 中 关于 突 触 权 值 矩 阵 的 梯度 为 
V, &(w) =—dx + aw (2-128) 


其 中 Z= d 是 学 习 信 号 ， 且 是 关于 x 的 期 望 响 应 。 所 以 ， 相 关 学 习 是 监督 学 习 。 同 样 ， 使 用 式 
(2-106) 中 Amari 结 果 和 式 (2-128) 的 梯度 ， 我 们 得 到 连续 时 间 的 相关 学 习 规则 


P= udr- aw) (2-129) 
式 (2-129) 的 离散 时 间 形 式 可 以 写 为 ”. 
w(k + 1) = w(k) + uld(k) x(k) — aw(k)] (2-130) 
离散 时 间 标 量 形式 是 
w, (k + 1) = w,(k) + Hd) x; (k) - omwi(] (2-131) 


其 中 j = 0, 1, …, mn。 相关 学 习 规 则 通常 应 用 在 具有 二 值 响 应 神经 元 的 存储 网 络 中 来 记录 数据 。 
有 趣 的 是 ， 如 果 式 (2-129) 中 的 4 用 y (神经 元 输出 ) 代替 ， 我 们 得 到 式 (2-103) 的 Hebb 学 
JAU (无 监督 学 习 )。 
2.8.6 标准 感知 器 学 习 规 则 
在 2.6.2 节 中 ， 我 们 研究 了 具有 S 形 激活 函数 的 简单 感知 器 。 现 在 ， 我 们 想 开发 基于 任何 可 
微 激 活 函 数 的 更 一 般 的 学 习 规则 。 生 成 的 学 习 规则 可 以 称 为 标准 感知 器 学 习 规则 ， 能 够 通过 
最 小 化 MSE 准 则 (Bll ated BES AB) 得 到 
Ewe (2-132) 
其 中 e = d 一 y。 神 经 元 输出 可 写 为 
y=f(w'x) = flv) (2-133) 
太 (.) 是 神经 元 激活 函数 。 现 在 我 们 假定 阐 值 (或 偏 置 ) 项 包括 在 突 触 权 值 向 量 中 。 所 以 ，w 
GE 各 “7。 采 用 最 速 下 降 方法 ， 连 续 时 间 学 习 规 则 为 
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dw 


VS) (2-134) 
其 中 式 (2-132) 的 梯度 为 
VE(w) = dT 4 +y(v ye, = -[d-p(vy É x 
2-135 
YO ps (2-135) 
dv 
m 
4 
其 中 
f= LO) _ ev) eg(v) (2-136) 





是 学 习 信号 。 所 以 ， 使 用 式 (2-134), X (2-135) 和 式 (2-136) ， 能 够 写 出 用 于 单个 神经 元 
的 连续 时 间 标 准 感 知 器 学 习 规则 


— = MX (2-137) 


等 式 (2-137) 以 离散 时 间 形式 可 写 为 

w(k +1) = w(k) +uc(k) x(k) (2-138) 
其 中 Z( 昌 是 式 (2-136) 的 离散 时 间 形 式 。 式 (2-138) 中 的 离散 时 间 学 习 规 则 的 标量 形式 可 
写 为 

w, (k + 1) = w; (k) +uA(k) x; (k) (2-139) 
对 j = 0, 1, =, Ao 


2.8.7 广义 感知 器 学 习 规则 


当 能 量 函 数 不 需 要 满足 MSE 准 则 时 ， 在 2.8.6 节 的 标准 感知 器 学 习 规则 可 以 推广 。 也 就 是 
说 ,我 们 能 够 定义 一 个 一 般 能 量 函 数 为 ; 
Zw) = ye) = Wd—y) (2-140) 
Epy ) 是 一 个 可 微 (加 权 或 损失 ) 函数 。 如 果 y (e) = 1/2 ee， 这 将 产生 一 个 标准 感知 器 学 习 
规则 。 然 而 ， 对 于 任何 合适 的 (- ) 函 数 ， 普 遍 感 知 器 学 习 规 则 能 够 通过 对 突 触 权 值 向 量 w 的 
最 小 化 式 (2-140) 得 到 。 通 常 使 用 式 (2-140) 中 的 广义 能 量 函 数 来 导出 鲁 棒 条 件 下 的 学 习 
规则 (参看 第 8、9 章 ) 。 广 义 能 量 函 数 是 鲁 棒 性 的 ， 主 要 在 于 误差 的 加 权 将 少 于 二 次 ， 导 致 拒 
绝 出 格 点 。 如 式 (2-132) ，MSE 性 能 准则 对 误差 进行 二 次 加 权 。 使 用 最 速 下 降 方法 ， 在 式 (2- 
134) 中 给 出 了 连续 时 间 的 一 般 感知 器 学 习 规 则 形式 。 所 以 ， 必 须 计 算式 (2-140) 的 梯度 ， 
并 且 可 以 通过 使 用 表 链 规则 来 确定 


_ bY de ay av 
VEW e ay, dv ow, (2-141) 
T 
其 中 
WO L y'(@as(e) (2-142) 
: A 


和 
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y = f(w"x) = Av) (2-143) 
其 中 f(: ) EMAR, HE 
dy(v) df(v) 








do dv = f'W)Ag(v) (2-144) 
所 以 ， 式 (2-141) 可 以 写 为 
A, &w) = — 6(e) g(U) x (2-145) 
且 连 续 时 间 的 一 般 感知 器 学 习 规 则 如 下 
= = uô(e)g(v)x . (2-146) 
其 中 4 > 0 是 学 习 率 参数 。 如 果 我 们 定义 学 习 信 号 为 
4AS(e)gs(v) (2-147) 
ER (2-146) 可 写 为 
dw 
a ul x (2-148) 
广义 感知 器 学 习 规则 的 离散 时 间 形 式 写作 
w(k + 1) = w(K) + ne x(k) (2-149) 
其 中 w (k) = w AT.) (TERRE). AOER (2-147) 给 出 ， 式 (2-149) 的 标量 形式 为 
wkE+1D=w(D+UADz (2-150) 


其 中 j= 0, 1, …,m。 图 2-37 表 明了 广义 感知 器 学 习 规则 。 








£ = d{e)g(v) 
广义 感知 器 
学 习 规则 


4 


图 2-37 广义 感知 器 学 习 规则 


2.9 数据 预 处理 


通常 ， 神 经 网 络 的 性 能 主要 依赖 于 对 训练 数据 进行 的 预 处 理 [67,68]。 若 对 输入 模式 和 月 
标 值 执行 一 定 的 预 处 理 步 又 ， 则 神经 网 络 训练 过 程 会 更 有 效率 。 也 就 是 说 ， 很 多 情况 下 “未 
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加 工 的 ”数据 对 于 训练 一 个 神经 网 络 并 不 是 最 好 的 数据 。 例 如 ， 在 用 于 训练 前 馈 感 知 器 的 反 
向 传播 算法 中 ， 如 果 使 用 二 值 S 形 函数 (参见 2.3 节 ) 作为 网 络 中 神经 元 的 非 线性 激活 函数 ， 
饱和 度 极 限 是 0 各 1。 如果 和 这 些 极限 相 比 ， 训 练 模式 具有 较 大 的 值 ， 非 线性 激活 函数 几乎 能 
够 完全 在 一 个 饱和 方式 下 操作 ， 且 禁止 网 络 训练 。 所 以 ， 训 练 数据 (输入 模式 和 目标 值 ) 应 
该 规整 范围 来 避免 这 个 问题 。 训 练 数据 的 这 类 预 调节 定义 为 规整 预 处 理 。 将 首先 讨论 这 个 问 
题 ， 接 着 讨论 称 为 变换 预 处 理 的 问题 。 这 里 并 不 打算 介绍 数据 预 处 理 的 所 有 形式 和 方法 。 给 
出 的 方法 已 经 广泛 使 用 到 训练 神经 网 络 的 预 处 理 数据 。 


2.9.1 规整 


训练 数据 可 以 用 两 种 基本 方法 放 缩 幅度 : 使 模式 的 值 位 于 -1 和 1 之 间 ， 或 使 模式 的 值 位 
于 在 0 和 1 之 间 。 这 两 类 幅度 规整 通常 称 为 最 小 /最 大 规整 。 在 模糊 神经 网 络 条 件 下 ， 规 整 输入 
数据 必须 在 [0, 1] 范 围 内 [69, 71]。 在 MATLAB 神 经 网 络 工具 箱 [68] 中 有 函数 Premnmx 可 用 于 
规整 输入 数据 ， 使 其 在 [一 1, 1] 的 范围 内 。premnmx 函 数 在 规整 输入 数据 或 规整 输入 和 目标 数 
据 时 有 一 个 选项 。 

另 一 个 重要 的 规整 过 程 叫做 均值 中 心 和 方差 规整 [68, 72-76]， 能 够 证 明 对 于 训练 神经 网 络 
是 有 用 的 。 我 们 假定 在 矩阵 4 E R RAR (向 量 ) 按 列 排列 ， 在 矩阵 C © R**" 中 目标 
向 量 按 列 排列 。 均 值 中 心 过 程 涉及 对 4 和 C 每 行 计算 一 个 均值 。 所 以 ，4 有 n 个 均值 ，C 有 p 个 均 
值 。 对 于 4 和 C 的 所 有 行 中 的 某 一 行 ， 每 一 元 素 减 去 相应 的 均值 。 方 差 规 整 涉及 计算 输入 矩阵 
4 和 目标 矩阵 C 各 行 的 标准 偏差 。 对 于 A4 和 C 的 各 行 中 某 一 行 ， 每 个 元 素 除 以 相应 的 标准 偏差 。 
均值 中 心 化 和 方差 能 够 单独 或 一 起 执行 。 在 MATLAB 神 经 网 络 工 具 箱 [68] 里 ， 函 数 prestd 将 
输入 和 目标 数据 或 仅仅 是 输入 数据 进行 均值 中 心 化 和 方差 规整 。 如 果 数 据 包 含 偏 置 ， 均 值 中 
心 化 是 重要 的 ， 如 果 4 是 均值 中 心 化 的 ， 那 么 C 也 应 该 是 均值 中 心 化 [72, 73]。 如 果 用 于 训练 所 
收集 的 数据 是 由 不 同 的 单位 所 度量 ， 方 差 规整 是 可 取 的 。 再 者 ， 如 果 4 是 方差 规整 的 ， 那 么 C 
也 应 是 方差 规整 [72, 73]。 许 多 人 坚持 认为 ， 数 据 应 该 总 是 均值 中 心 化 和 方差 规整 的 ， 另 一 些 
人 则 认为 ， 数 据 决 不 应 该 以 这 种 方式 预 调 节 [77]。 我 们 认为 除非 有 特殊 原因 ， 均 值 中 心 化 和 方 
差 规整 数据 应 该 可 以 在 这 种 方式 下 预 处 理 。 否 则 ， 这 些 不 应 该 随意 地 执行 处 理 。 


2.9.2 变换 


很 多 情况 下 某 些 “原始 的 ”信号 特征 用 于 神经 网 络 的 训练 输入 可 以 提供 比 原始 的 信号 本 
身 更 好 的 结果 。 所 以 ， 一 个 前 端 特征 抽取 器 能 够 用 来 辨别 显著 的 或 突出 的 数据 特征 ， 并 且 这 
些 信 号 特征 随后 能 够 用 作 训 练 神经 网 络 的 输入 。 缩 减 训 练 模式 的 输入 向 量 长 度 是 我 们 非常 期 
望 的 ， 这 样 通常 可 以 减少 整个 网 络 体系 结构 的 大 小 。 下 面 将 讨论 四 种 变换 方法 ， 它 们 可 以 看 
作 特征 抽 取 器 以 及 用 于 预 处 理 训练 数据 的 预 调节 信号 预 处 理 方法 的 高 期 望 特征 。 


2.9.3 MEHEK 


(AN; (Fourier) 变换 对 预 调节 训练 神经 网 络 的 数据 有 用 。 从 实用 的 观点 ， 时 间 信 号 的 
快速 傅 里 叶 变换 (FFT) 是 执行 离散 伟 里 叶 变 换 (DFT) 的 一 个 高 效 方法 。FFT 嵌 入 在 
MATLAB 中 的 fft 函 数 中 。 使 用 FFT 的 谱 幅 度 的 主要 优点 是 它 对 于 信号 相位 不 灵敏 。 所 以 ， 
如 果 信 号 相位 不 重要 ， 可 使 用 FFT 幅 度 样本 作为 每 个 训练 模式 (信号) 的 特征 向 量 。 特 别 是 ， 
恰当 表示 信号 需要 的 传 里 叶 频 率 的 数目 远 远 小 于 原始 信号 自身 长 度 。 图 2-38 说 明 这 两 点 。 首 
先 ， 在 图 2-38a 中 ， 我 们 可 观察 到 三 个 完全 相同 的 信号 (每 个 有 1024 个 时 间 样 本 ) 和 图 2-38b 
所 示 相 应 的 FFT 幅度 响应 (前 16 个 样本 )。 观 察 图 2-38b, 我 们 看 出 FFT 幅 度 响 应 是 完全 相同 的 。 
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其 次 ， 从 图 2-38b 看 来 ,在 所 有 可 能 情况 下 ， 前 16 个 幅度 样本 将 充分 描述 1024 个 样本 长 度 信和 号， 
如 同 数据 唯一 特征 集合 一 样 。 所 以 ，16 个 幅度 样本 将 形成 一 个 训练 向 量 ， 它 比 由 原始 时 间 域 
育 号 表示 的 输入 模式 小 得 多 。 如 图 2-38c ~e 所 示 ， 各 自 的 相位 数据 ， 实 部 特征 和 虚 部 特征 并 
不 具有 幅度 响应 所 具有 的 相 不 变 特征 。 
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d) e) 
图 2-38 a) 三 个 相同 信号 在 时 间 上 平移 。 每 个 信号 有 1024 个 时 间 样 本 ，b) 每 个 信号 的 前 16 个 
FFT 幅 度 样 本 ，c) 每 个 信号 的 前 16 个 FFT 相 位 样本 ，d) 每 个 信号 的 前 16 个 FFT 实 部 样 
A; e) 每 个 信号 的 前 16 个 FFT 虚 部 样本 
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d) e) 
图 2-38 (BR) 


与 FFT 方 法 相关 的 一 个 方法 涉及 使 用 训练 模式 的 复 倒 谱 [20, 78]。 复 倒 谱 多 次 使 用 可 以 分 
离 那 些 卷 积 信号 。 这 叫做 同 态 解 卷 积 。 与 用 于 FFT 一 样 ， 输 入 模式 的 复 倒 谱 用 来 抽取 数据 的 重 
要 特征 ， 然 后 ， 将 这 些 主要 特征 可 以 用 于 训练 神经 网 络 。 用 于 说 话 者 (具有 和 鲁 棒 性 ) 识别 的 
语音 信号 倒 谱 处 理 在 Mammone et al.[79] 的 文章 中 详细 地 介绍 。 


2.9.4 主 成 分 分 析 


主 成 分 分 析 (PCA) (参看 9.2 节 ) 能 够 用 来 “压缩 ”输入 训练 数据 集合 (或 缩减 输入 维 数 )。 
按 数 据 方差 的 评价 确定 数据 的 重要 特征 ， 在 使 用 PCA 时 允许 以 此 缩减 输入 向 量 的 维 数 。 结 果 
“压缩 的 ”输入 向 量 将 具有 不 相关 的 元 素 。 如 下 事实 证 明 ， 变 换 后 的 输入 估计 协 方差 矩阵 是 对 
角 的 。 在 PCA 应 用 之 前 ， 数 据 应 该 均值 中 心 化 。 在 MATLAB 神 经 网 络 工具 箱 中 [68]， 提 供 
prepca 国 数 对 训练 数据 执行 PCA。 

给 定 一 组 训练 数据 4 E RR““， 其 中 假定 m > n。 然 而 ，n (输入 训练 模式 的 维 数 ) 假定 比 
较 大 。 使 用 PCA， 可 以 决定 一 个 “最 佳 ” 正 交 变换 矩阵 WE 路 (889.20), Ah, Ñ 
常 h 之 ( 维 数 缩 碱 的 程度 )。 使 用 这 个 变换 和 矩阵， 输入 向 量 的 维 数 ( 即 ，4 的 列 数 ) 能 够 按照 
如 下 变换 缩减 : 

A, = WoeaA (2-151) 


其 中 4, E WW“" 是 训练 模式 的 缩减 维 集合 。4, 的 列 是 4 的 每 个 输入 ( 即 ，4 中 对 应 的 列 ) 的 主 成 
分 。 注 意 在 9.2 节 中 ， 我 们 定义 正 交 转换 矩阵 WW、 在 式 (2-151) 中 的 Ws 的 行 数 为 正 交 主 特征 
向 量 。 


2.9.5 部 分 最 小 二 乘 回归 


部 分 最 小 二 乘 回 归 (PLSR) (参看 9.5 节 ) 也 可 以 用 来 压缩 输入 训练 数据 集合 。 在 监督 训 
练 的 神经 网 络 中 PLSR 被 限制 使 用 ， 因 为 其 需要 输入 和 目标 训练 数据 。 此 外 ， 仅 仅 允 许 标量 
目标 值 ( 即 ， 标 量 响应 变 元 )。9 在 PLSR 中 的 因子 分 析 (参看 9.5 节 ) 可 以 决定 输入 数据 的 压 
缩 程度 。 也 就 是 说 ， 在 确定 PLSR 因 子 h 的 最 优 值 后 ， 加 权 人 负载 向 量 可 以 用 2.9.4 节 的 PCA 相 似 
的 方法 用 来 变换 数据 。 所 以 ， 最 佳 数 量 加 权 负 载 向 量 可 以 形成 一 个 像 矩 阵 研 uv E ROB IB 
那样 的 正 交 变换 和 矩阵。 使 用 这 个 变换 矩阵 ， 输 入 向 量 的 维 ( 即 ，4 的 列 数 ) 可 以 按照 如 下 变 
HEM. 

A, = Wi, A (2-152) 
st (2-152) 中 的 压缩 向 量 实际 上 在 局 部 最 小 二 乘 算法 中 (参看 9.5 节 ) 产生 的 分 数 。 这 数据 压 





O ”这 是 … 个 限制 ， 仅 因为 本 书 中 给 出 了 单 分 量 情形 〈 参 看 9.5 节 )。 但 是 ，… 般 情况 下 ，PLSR 的 目标 值 〈《 响 应 
变量 ) 可 以 为 向 量 [761。 
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缩 方 法 已 成 功 地 用 来 训练 一 个 多 层 前 馈 感知 器 (通过 反 向 传播 ) [80]。 图 2-39 给 出 了 一 个 用 于 
数据 压缩 的 PCA 与 PLSR 正 交 变 换 向 量 的 比较 。 两 个 向 量 集合 的 不 同 之 处 在 于 : PLSR 使 用 输 
和 数据 和 目标 数据 来 产生 正 交 变 换 研 vv 的 加 权 负 载 向 量 。 











0g 
0.6 
-1 o 02 0.4 x 
-0.2 
PLSR 加 权 负 ----- PCA 特 征 向 量 
载 向 量 


图 2-39 用 于 数据 压缩 的 PCA 和 PLSR 正 交 变 换 向 量 
2.9.6 小 波 和 小 波 变换 


通常 ， 波 是 一 个 时 间 (或 空间 ) 的 振荡 国 数 ， 例 如 ， 具 有 特定 振幅 和 频率 的 正弦 。 传 里 
叶 分 析 用 来 分 析 波 动 ， 即 某 些 函数 (或 信号 ) 能 够 根据 正弦 波 (或 复 指数 ) 展开 。 当 我 们 处 
理 周 期 的 、 时 不 变 的 或 稳定 的 物理 数据 时 ， 信 号 分 析 方法 是 非常 有 用 的 。 所 以 ， 在 傅 里 时 级 
数 的 情形 中 ， 选 择 正弦 函数 作为 基 函 数 ， 然 后 ， 分 析 由 此 得 到 的 展开 的 性 质 。 侍 里 叶 变 换 提 
供 了 一 个 分 析 工 具 ， 可 以 用 于 将 信号 变换 到 频率 域 ， 以 及 给 出 关于 基 贸 数 信 号 频率 内 容 的 显 
式 表示 ( 即 ， 合 成 该 信号 需要 的 这 个 频率 成 分 的 多 少 )。 

在 小 波 分 析 中 ,定义 期 望 的 特性 。 然 后 ， 由 此 得 到 基 范 数 。 小 波 能 够 看 作 一 个 小 的 波 [81]， 
它 的 能 量 是 集中 的 (在 时 间 上 )。 小 波 是 分 析 时 变 的 、 瞬 时 的 或 非 平稳 的 信号 的 有 用 工具 。 因 
此 ， 不 适合 于 使 用 传 里 叶 方 法 分 析 的 许多 类 型 的 信号 可 以 采用 小 波 方法 进行 研究 。 此 外 ， 小 
波 还 可 以 允许 同时 进行 时 间 和 频率 的 分 析 。 

小 波 变换 [81-84] 比 传统 的 傅 里 叶 变 换 更 局 部 化 。 也 就 是 说 ， 小 波 是 局 部 的 波 ， 而 不 是 振 
荡 和 无 限 的 ， 它 们 最 终 衰减 到 0。 这 与 建立 在 无 限 正 弦 函 数 基 上 的 传 里 叶 变 换 不 同 。 小 波 对 于 
信号 和 图 像 的 压缩 、 检 测 和 降 噪 等 均 有 用 。 小 波 变 换 能 够 提供 信号 的 时 频 描述 并 能 够 压缩 用 
于 训练 神经 网 络 的 数据 [85, 86]。 在 MATLAB 小 波 工具 箱 中 [87]， 有 一 些 用 于 信号 和 图 像 的 降 
噪 和 压缩 的 函数 。 


习题 
2.1 标量 函数 Kaz) : R -> 中 对 向 量 的 导数 定义 为 


84 
85 
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证 明 如 下 等 式 ， 
(a) ~ (hx) = 2 xh) = hx, h E R” 1 
or ox 
(b) = (x7 Ax) = 2Ax Herhy i= RI AS Rer, HA =A’, 
x 


2.2 考虑 图 2-19 所 示 的 Adaline。 使 用 u-LMS 算 法 训练 网 络 执行 OR 逻辑 函数 。 当 训练 输入 使 用 
(a) 双 极 向 量 、(b) 二 值 向 量 、(c) 比较 (a) 、(b) 两 种 情况 的 收敛 速度 ， 解 释 这 个 差异 。 


2.3 ”使 用 a-LMS 算 法 ， 重 复 问 题 2.2。 


2.4 写 一 个 用 于 训练 如 图 2-24 给 出 的 带 有 非 线 性 变换 输入 的 Adaline 的 计算 机 程序 ， 实 现 逻 
辑 图 数 XOR。 训 练 输入 使 用 双 极 向 量 。 解 释 该 网 络 结构 比 感 知 器 有 更 好 的 可 分 离 特 性 
的 原因 。 


Bl 2.5 XOR 函 数 可 表示 为 


A XOR B = (NOT A AND B) OR (A AND NOT B) 
(a) 设计 一 个 Madaline 网 络 ， 实 现 上 面 的 逻辑 函数 。 
(b) 使 用 MRI 学 习 规 则 训练 网 络 。 
(c) 画 出 边界 分 离线 。 


2.6 考虑 如 图 2-40 所 示 的 分 离 问 题 。 贺 和 方形 显然 不 是 线性 可 分 离 。 








图 2-40 问题 2.6 的 模式 分 离 
(a) 写 一 个 计算 机 程序 ， 实 现 带 有 非 线性 变换 输入 的 Adaline， 使 用 LMS 算 法 来 训练 。 
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(b) 使 用 你 的 程序 分 离 图 2-40 给 出 的 圆 和 方形 。 
(c) 修改 你 的 代码 ， 以 便 使 用 w-LMS 学 习 来 实现 训练 。 
2.7 考虑 一 个 二 维 向 量 集合 ， 该 集合 定义 为 : {x E R-2<x, <2, 并 且 -2<x<2j. 训 BD 
练 图 2-24 中 带 有 非 线性 变换 输入 的 Adaline 神 经 网 络 来 实现 下 面 的 分 类 : 
如 果 x2 433 <1， 则 x 分 作 1 类 ， 否 则 ，x 分 作 0 类 。 
2.8” 写 一 个 使 用 感知 器 (参看 图 2-30) 来 分 类 图 2-41 给 出 的 数字 的 程序 。 在 输出 层 神经 元 数量 OD 
应 该 等 于 数字 的 个 数 。 每 个 数字 表示 成 一 个 9 x 4 二 值 (或 双 极 值 的 ) 数字 矩阵。 对 每 个 表 
示 数 字 的 矩阵 应 用 vec 运 算 (参见 A.2.17 节 ) ， 从 每 个 数字 可 产生 输入 训练 模式 。 当 网 络 训练 
以 后 ， 在 数字 表示 中 引入 随机 噪声 ， 测 试 神经 网 络 性 能 。 试 验 输出 层 具 有 不 同 激活 函数 。 





4 2 4 2 4 2 4 
图 2-41 用 于 问题 2.8 的 数字 86 
| 
2.9 (a) 将 式 (2-27) 代入 到 式 (2-25), EBA 37, 


J min 


(Ww) = FEIE- PW 


(b) 使 用 在 (a) 中 导出 的 等 式 ,证 明 式 (2-25) 可 表示 为 
Tw) = J minw) + 一 CC 一 mw 


2.10 假设 一 个 简单 线性 组 合 器 的 权 值 按照 式 (2-27) 来 设置 。 
(a) 证 明 
E {e (k) x (k)} = 0 
(b) (a) 中 结论 的 一 个 物理 意义 是 什么 ? 
211 自 适应 线性 组 合 器 的 最 受 欢迎 的 应 用 之 一 是 用 于 通信 信道 的 自 适 应 均衡 。 考 虑 数据 传 BD 
输 到 一 个 未 知 干扰 损坏 的 轨道 的 问题 ， 如 图 2-42 所 示 。 对 这 个 问题 ， 假 定 干 扰 是 频率 为 
的 正法 曲线 。 为 了 得 到 一 个 无 干扰 的 连接 ，Adaline 网 络 放 置 在 传输 线 的 末端 。 在 信息 
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数据 比特 流 的 传输 前 ， 一 个 已 知 的 序列 发 送 到 线 上 ， 如 图 所 示 。 在 链接 的 末端 ， 
Adaline 比 较 带 有 已 知 序列 的 接受 信号 ， 并 且 调 整 它 的 权 值 使 二 者 之 间 的 差异 最 小 化 。 


已 知 训练 序 | 并 
列 的 产生 器 | mO 






训练 算法 


Le ee ee ee ee ee 


图 2-42 使 用 Adaline 的 自 适 应 信道 均衡 


执行 一 个 计算 机 模拟 来 实现 如 下 的 功能 : 

(a) 产生 一 个 1024 位 长 的 随机 比特 序列 (通过 使 用 一 个 随机 数字 发 生 器 来 产生 一 个 比特 
序列 )。 让 每 个 位 用 至 少 四 个 样本 表示 ( 双 极 值 的 或 二 值 的 )。 

(b) 添加 一 个 干扰 信号 到 比特 序列 (参看 图 2-43)。 


N = 1024; % size of the sequence 

x0 = round (rand (N, 1)); % generate a random binary sequence 
x = zeros (N*4,1); % let each bit be represented with 
x(1:4:4*N,1) = x0; % four samples 

x(2:4:4*N,1) = x0; 

x(3:4:4*N,1) = x0; 

x(4:4:4*N,1) = x0; 


t = is4*N; % generate the interference 
g = sin(2*pi*t/10)'; 


B= X+9} % signal at the end of the channel 





”图 2-43 产生 训练 数据 的 MATLAB 代 码 的 例子 


(c) 使 用 LMS 算 法 训练 Adaline， 它 带 有 n 个 神经 元 输入 ， 在 输出 层 有 一 个 神经 元 。 令 输 
入 向 量 是 一 个 信号 s (A) 的 延迟 版 本 ， 且 期 望 的 网 络 输 出 是 图 2-42 所 示 的 已 知 序列 的 

(d) 在 训练 之 后 测试 Adaline 的 输出 ， 并 且 比 较 它 的 输出 和 无 扭曲 的 已 知 序列 。 

(e) 用 不 同 长 度 的 序列 、 不 同 的 输入 神经 元 数量 和 不 同学 习 规 则 (也 就 是 ，a-LMS，w- 
LMS) 进行 试验 。 
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2.12 在 LMS 算 法 的 推导 中 ， 通 过 利用 瞬时 误差 表面 的 导数 来 估计 权 值 更 新 的 方向 。 在 本 质 网 
上 ，MSE 曲 面 的 梯度 为 
V, J(w) =—E {d(k) x(k} + E {x(k) x" (k)} wk) 


近似 为 
V,, J(w) ~ — dlk) x(k) + w (Kk) x(k) x(k) = — [d (k) — w” (k) x(k)] x(k) 
=— e(k) x(k) 
瞬时 误差 是 MSE 曲 面 的 最 粗略 的 近似 值 ， 为 了 确保 算法 的 稳定 行为 ， 学 习 率 必须 保持 
相对 地 小 。 ' 


(a) 使 用 下 面 的 近似 写 一 个 计算 机 程序 


k 
E{d(k)x(k)} = d(m)x(m) 


m=k-M+1 


E{x(k)x" (k)} = d,s" om) 


(b) 用 问题 2.11 描 述 的 自 适 应 均衡 的 例子 测试 你 的 程序 。 用 不 同 M 值 试验 并 且 讨 论 结果 。 [88 
例如 ， 比 较 (a) 中 发 展 的 学 习 算法 和 原始 LMS 算 法 的 速度 、 内 存 需要 、 稳 定性 。 89 
2.13 (a) See R"™', 证 明 
ollel e- 
0e Hell 


(b) 在 式 (2-84) 的 泄漏 LMS 学 习 规 则 的 推导 中 (参见 2.8.1 节 )， 我 们 已 经 假定 y(?) = 
WR。 通 常 ， 为 了 使 学 习 规则 相对 于 训练 样本 中 的 出 格 点 和 噪声 更 具 鲁 棒 性 ， 函 数 光 
(.) 定 义 为 WD =i, 证明 在 这 种 情况 下 ， 式 (2-82) 中 的 一 般 (离散 时 间 ) LMS 学 
习 规 则 假定 为 如 下 形式 





w(k +1) = w(k)+ lien x(k)- cont} 
2 


2.14 在 标准 LMS 算 法 的 应 用 中 屡次 遇 到 的 问题 是 当 网 络 运行 在 误差 曲面 的 平坦 区 域 时 ， 它 
性 能 差 。 克 服 该 问题 的 一 种 方式 是 使 用 如 下 形式 的 港 汤 LMS 算 法 (参看 表 2-2) 
w(k + 1)= pe(k) x(k) +(1 — y) wk) 
证 明 : 如 果 误差 曲面 相对 平坦 ， 泄 漏 LMS 算 法 能 够 近似 为 


wik +1) = ex ry wk -n) 
y 


FATT LAR BLS HBB UB ag = “1,0 
2.15 具有 动量 的 LMS 算 法 为 
w(k + 1) = w(k) + uelk) x(k) + a [w(k) — wk — 1)] 
当 误差 曲面 相当 平坦 时 ， 它 胜 过 标准 LMS 算 法 。 证 明 : 对 于 平坦 误差 曲面 ， 具 有 动量 的 
更 新 能 够 近似 为 


w(k +1) = w(k) + 





| ne(k)x(k) 
l-a 
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注意 现在 有 效 学 习 率 是 Ur= [1/01 -u 
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第 3 章 映射 网 络 


3.1 概述 


本 章 将 讲述 儿 种 映射 神经 网 络 结构 和 相关 的 学 习 规则 。 如 1.4 节 所 述 ， 有 几 种 用 于 分 类 
神经 网 络 的 方法 ， 因 而 神经 网 络 的 分 类 法 并 不 一 定 是 简单 明了 的 。 图 1-10 给 出 的 分 类 方法 是 
根据 网 络 如 何 学 习 ， 即 监督 学 习 与 非 监督 学 习 ， 对 精 选 神经 网 络 进行 分 类 。 这 一 章 将 介绍 四 
类 重要 的 映射 网 络 。 选 择 这 组 网 络 是 由 于 它 代表 监督 方式 下 训练 的 网 络 ， 并 且 有 许多 不 同 能 
力 ， 例 如 ， 模 式 联想 与 分 类 、 函 数 逼 近 和 估计 等 。 四 类 不 同 的 映射 网 络 是 ;(1) 联想 记忆 网 
络 ，(2) 利用 反 向 传播 算法 训练 的 前 馈 多 层 感 知 器 ， 具 有 反 向 传播 学 习 算 法 的 一 些 变 体 ， 
(3) 对 传 网 络 ，(4) 径 向 基 函 数 网 络 。 由 图 3-1 


可 观察 出 这 四 类 映射 神经 网 络 的 共性 。 图 3-1 
所 示 的 映射 函数 Q( . ) 可 以 是 线性 或 非 线 性 的 。 > =n) y 
LP ERE, RHQ, R >R" xen rene 
compen MEA i, 例如 ， 图 3-1 用 于 映射 ANN 的 通用 结构 

对 联想 记忆 网 络 来 说 ， 运 行 相 对 简单 。 在 学 习 过 程 中 ， 提 交 关 键 模式 给 网 络 (MAM 
“空白 记录 ”开始 ) ， 并 且 记忆 转换 这 些 模 式 为 记忆 (或 存储 ) 模式 。 在 学 习 过 程 中 网 络 突 触 
权 值 得 到 调整 。 训 练 之 后 ， 回 忆 (RAH) 阶段 涉及 提交 刺激 (输入 ) 给 网 络 。 这 个 输入 可 
以 是 不 完整 的 或 有 噪声 的 。 然 而 ， 即 使 损坏 的 输入 ， 记 忆 网 络 也 有 能 力 恰当 回忆 “相关 的 ” 
正确 模式 。 甚 至 亚 里 士 多 德 (Aristotle) 意识 到 联想 是 人 类 记忆 的 显著 特征 。 利 用 反 向 传播 算 
法 训练 的 前 馈 多 层 感 知 器 在 当今 可 能 是 最 有 名 、 最 经 常 使 用 的 神经 网 络 。 标 准 的 反 向 传播 算 
法 是 以 最 速 下 降 方法 (参看 A.5.2 节 ) 为 基础 ， 并 且 在 网 络 中 ， 突 触 权 值 与 网 络 输出 的 计算 误 
差 ， 即 实际 输出 和 期 望 输出 之 间 的 差异 ， 成 比例 地 更 新 。 训 练 后 的 结果 是 从 网 络 输入 到 输出 
的 特定 非 线性 映射 。 标 准 反 向 传播 算法 的 变 体能 提高 网 络 的 收敛 速度 和 它 的 性 能 。 对 传神 经 
网 络 像 统 计 上 最 优 的 自 编程 查找 表 一 样 运行 。 这 些 网 络 提供 了 输入 与 输出 训练 模式 间 的 双向 
映射 。 径 向 基 范 数 网 络 是 另 一 种 有 力 的 监督 训练 网 络 ， 可 用 于 模式 分 类 和 函数 世 近 。 当 它们 
的 输入 在 输入 空间 的 相当 小 的 局 部 化 区 域 时 ， 在 网 络 的 隐藏 层 的 基 函 数 ( 即 ， 非 线性 的 ) 产 
生 一 个 很 大 的 非 零 响 应 。 在 许多 情况 下 ， 径 向 基 函 数 网 络 的 训练 比 利 用 反 向 传播 来 训练 的 前 
馈 多 层 感知 器 快 得 多 。 


3.2 联想 记忆 网 络 


在 任何 类 型 的 神经 网 络 中 ， 存 储 和 检索 信息 的 能 力 是 至 关 重要 的 。 对 于 信息 处 理 系统 记 
忆 和 推断 所 存储 的 信息 而 言 ， 记 忆 能 力 是 至 关 重 要 的 。 存 储 的 信息 必须 在 网 络 的 存储 中 恰当 
地 分 配 地 址 ， 并 且 输 出 到 外 面 的 世界 。 即 给 定 一 个 关键 (key) WA g), MA OR) 记 
忆 中 检索 适当 的 记忆 模式 ， 输 出 作为 刺激 的 适当 响应 。 对 于 可 能 不 完整 (有 噪声 ) 的 输入 关 
键 或 网 络 串扰 作出 响应 ， 这 是 网 络 达到 的 最 佳能 力 。 

在 神经 生物 系统 中 ， 记 忆 概 念 意味 着 神经 变化 ， 它 由 器 官 结构 同 环境 的 交互 作用 所 引起 
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[]。 车 不 发 生 这 个 变化 ， 记 忆 将 不 存在 。 同 样 ， 如 果 记忆 是 有 用 的 ， 那 么 记忆 必须 是 神经 系 
统 可 访问 的 ， 以 便 能 发 生 学 习 和 能 执行 信息 检索 。 对 任何 信息 处 理 系统 ， 无 论 是 人 工 还 是 生 
物 的 ， 前 面 给 出 的 描述 是 最 基本 的 。 通 过 一 个 学 习 过 程 ， 活 动 模式 存储 在 记忆 中 。 因 此 ， 记 
忆 和 学 习 具 有 深奥 的 联系 。 特 定 活动 模式 被 学 习 后 将 存储 在 记忆 中 。 此 后 当 需 要 获得 那个 特 
定 信息 时 能 被 检索 (回忆 )。 有 两 类 记忆 ， 长 期 记忆 和 短期 记忆 。 这 两 类 记忆 的 区 别 取决 于 保 
持 时 间 。 

下 面 将 研究 有 联想 操作 的 信息 处 理 系统 的 记忆 动力 学 ， 联 想 是 人 类 记忆 的 本 质 特征 。 大 
多 数 认 知 模型 以 某 种 形式 运用 联想 [1-11]， 我 们 称 任何 运用 联想 的 记忆 系统 为 联想 记忆 。 许 多 
神经 元 组 织 在 一 起 使 得 需要 存储 在 记忆 中 的 活动 模式 在 记忆 中 形成 一 个 包含 激励 信息 的 较 大 
的 空间 模式 ， 在 此 意义 下 ， 联 想 记忆 为 分 布 式 的 。 因 此 ， 记 忆 执 行 一 个 分 布 式 映射 (distributed 
mapping) ， 将 输入 空间 的 活动 模式 变换 到 输出 空间 的 另 一 个 活动 模式 。 通 常 ， 存 储 在 记忆 中 
的 单个 模式 间 存 在 相互 作用 。 这 种 情况 是 必需 的 ， 否 则 记忆 必须 非常 大 以 对 所 有 单个 模式 之 
间 提 供 相互 完全 隔离 。 因 为 相互 作用 ， 在 模式 检索 过 程 中 ， 可 能 发 生 记忆 误差 。 有 两 类 基本 
的 联想 记忆 : 自 联想 记忆 和 异 联想 记忆 。 在 自 联想 记忆 情况 下 ， 关 键 输入 向 量 联想 (或 映射 ) 
到 自身 。 然 而 ， 异 联想 记忆 ， 关 键 输入 向 量 联想 (或 映射 ) 到 任意 记忆 向 量 。 在 这 种 情况 下 ， 
输入 空间 与 输出 空间 维 数 可 能 不 同 (对 于 自 联 想 记 忆 ， 输 入 和 输出 空间 的 维 数 相同 ) 。 


3.2.1 一 般 的 线性 分 布 式 联想 记忆 


在 一 个 一 般 线性 分 布 式 联想 记忆 的 例子 中 ， 
学 习 过 程 涉及 提交 一 个 关键 输入 模式 〈 向 量 ) 给 
网 络 ， 然 后 记忆 把 这 个 向 量变 换 成 一 个 存储 (或 
记忆 ) 模式 。 在 图 3-2 所 示 的 线性 神经 网 络 结构 能 
够 作为 一 个 联想 记忆 模型 ， 使 用 简单 线性 组 合 器 
作为 神经 元 。 这 个 单 层 线性 神经 网 络 有 一 个 输入 





(向 量 ) 图 3-2 单 层 线性 神经 网 络 联想 记忆 。 假 定 ， 
输入 和 输出 维 数 相同 ， 为 n 
X= [Xen Xe os Xel" (3-1). 
叫做 关键 输入 模式 ， 并 且 一 个 输出 (向量 ) 
> Ye = ars Yeas yo (3-2) 


叫做 记忆 模式 。xi 和 y4 的 元 素 既 可 以 是 正 值 也 可 以 是 负 值 , 这 在 神经 生物 学 上 是 不 一 定 合 理 的 。 
对 于 一 个 特定 的 维 数 x*?， 图 3-2 中 的 神经 结构 能 够 联想 h 个 模式 ， 然 而 h<n(n 是 网 络 的 最 大 存 
储 能 力 ) 。 实 际 上 ， 网 络 的 工作 能 力 是 A <n, KB x, Aly LiCl hy, 之 间 的 线性 联想 映射 
可 用 和 矩阵 形式 表示 为 : 

Yı = Wk) x, (3-3) 
其 中 权 值 矩阵 W(R) E R 由 输入 /输出 对 (zx RE, k=1,2, … h。 对 每 一 输入 /输出 对 ， 有 
相应 的 权 值 矩 阵 W(1), W(2), =, W(h)。 由 这 组 权 值 矩阵 可 构造 记忆 和 矩 阵 几 E R, MIRE 
个 输入 /输出 对 或 者 是 模式 联想 的 整个 集合 的 权 值 矩阵 的 总 和 。 这 可 写 为 


i 
i 


M= VW (3-4) | 
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XP ICI ME MARK (关键 模式 ) 和 相关 输出 模式 (记忆 模式 ) 之 间 的 整体 
连接 。 而 有 全， 记忆 和 气 阵 可 认为 是 通过 提交 个 输入 /输出 模式 给 网 络 而 获得 的 集体 经 验 的 表示 。 
等 式 (3-4) 用 递归 形式 可 表示 为 : 

M,=M,_,+W(k), for k=1,2,.…,h (3-5) 
其 中 Mo = 0, Wt (3-5) 得 到 的 最 终结 果 与 式 (3-4) PRR. MEREM EA th 
SR (XY) RA AE AO BU Wk) “RE”, 4 CAE WA) ES Hh A 
混合 中 失去 独特 性 质 。 然 而 ， 关 于 当前 联想 的 信息 在 与 其 他 联想 的 突 触 混合 也 许 没 有 完全 失 
去 。 下 一 节 将 讲述 对 于 给 定 的 关键 模式 和 相应 的 记忆 模式 的 记忆 和 抵 阵 的 估计 方法 。 


3.2.2 相关 和 矩阵 记忆 
A (3-4) 所 示 的 记忆 称 阵 M 的 估计 可 由 关键 模式 和 记忆 模式 对 构成 


h 
M= det (3-6) 
=i 


从 式 (3-6) 中 可 知 ， 记 忆 和 矩阵 M 的 估计 的 基 是 im 个 外 积 矩 阵 yakk = 1,2, …, 站 的 和 。 因 此 ， 每 
一 外 积 和 矩阵 是 权 值 拢 阵 W(k) 的 估计 ， 它 映射 输出 模式 y 到 输入 模式 x。 对 于 每 一 输入 /输出 对 
{xx.y}， 权 值 矩 阵 估计 中 的 元 素 是 yi xy。 对 于 第 k 个 联想 ， 相 关 的 权 值 矩阵 元 素 wi(D 有 一 个 作 
为 网 络 输入 (x) 的 前 突 触 节 点 j 和 在 网 络 输出 层 的 第 i 个 神经 元 是 后 突 触 节 点 (yw)。 式 (3-6) 
中 的 学 习 规 则 实际 上 是 局 部 化 的 学 习 过 程 ， 可 视 为 Hebb 学 习 (参看 2.8.2 节 ) 的 一 种 形式 。 权 
值 矩阵 估计 中 每 一 项 (yixw) 是 Hebb 学 习 中 的 共生 项 ， 在 Hebb 学 习 中 很 典型 。 

A (3-6) 所 示 的 学 习 过 程 称 为 外 积 规则 ， 因 为 记忆 和 矩 阵 估计 履 由 h 个 外 积 和 矩阵 yixx(k =1， 
2, …, h) 的 和 构成 。 因 此 ， 以 这 种 方式 设计 的 联想 记忆 称 为 相关 算 阵 记忆 [12]。 也 可 以 将 
A (3-6) 所 示 的 相关 学 习 过 程 以 递归 形式 可 表示 为 : 


M,=M, +yx’, for k=1,2,--,h (3-7) 


EA (3-7) 中 当 k = 1 时 ， 与 式 (3-5) 表示 的 一 般 递 归 形 式 一 样 ， 履 。= 0。 式 (3-7) 中 的 最 
后 得 到 的 值 M,|,，= M5R (3-6) 得 到 的 结果 放 是 一 致 的 。 

给 定 记忆 矩阵 椒 的 估计 ， 当 关键 模式 引入 网 络 时 ， 希 望 寻 址 和 回忆 存储 在 联想 记忆 中 的 
恰当 记忆 模式 。 绘 定 A 个 模式 联想 ， 假 设 联想 记忆 的 矩阵 估计 由 式 (3-6) 所 示 的 学 习 过 程 构 
成 。 任 意 选 择 关 键 模式 x,， 并 且 作为 记忆 刺激 应 用 于 网 络 ， 相 应 的 响应 是 : 


ya Mx, Dv PC) (3-8) 
等 式 (3-8) 可 改写 为 : 


y= (XxX), + > EX), - 
2 (3-9) 
假设 每 一 关键 向 量 z x, …, zz 规范 化 到 单位 长 度 ， 即 : 
xix,=1 for k=1,2,---,h (3-10) 
由 欧 几 里 得 范 数 除 以 每 个 关键 向 量 ， 可 实现 。 即 
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x; 


ee Tx, Ih (3-11) 
R (3-9) 可 改写 为 ; 
h 
Y=, + X (XX) =I, +2, (3-12) 
kaq 
其 中 
h ape 
z5 Nore (3-13) 
=l 
keq 


MX (3-12) 中 可 看 出 ， 当 联想 关键 模式 传 给 网 络 时 ， 如 果 联 想 记 忆 能 完整 恢复 记忆 模式 ， 
Wy = y, Hz = 0。 因 此 ， 式 (3-12) 的 y, 是 期 望 响应 (信号 )，z 视 为 噪声 或 申 扰 (crosstalk), 
从 式 (3-13) 中 可 看 出 ， 由 于 关键 向 量 x，( 即 ， 刺 激 ) 与 存储 在 记忆 中 的 其 他 关键 向 量 相 互 作 
用 产生 串扰 。 如 果 各 模式 是 统计 上 独立 的 ， 从 中 心 极限 定理 [13] 可 导出 : 噪声 向 量 z, 是 具有 高 
斯 分 布 元 素 的 随机 向 量 。 这 是 一 个 从 加 性 噪声 中 分 离 出 有 用 信号 的 典型 问题 [13]。 对 于 存储 在 
联想 记忆 中 的 记忆 模式 ,“ 噪 声 ” 水 平 将 确定 重 构 的 精确 程度 。 

从 式 (3-13) 中 显然 可 看 出 ， 如 果 各 种 关键 向 量 构成 正 交 集合 (实际 上 是 标准 正 交 集合 ， 
因为 已 假定 关键 向 量规 范 化 到 单位 长 度 )。 那 么 串扰 是 0， 并 且 记 忆 模 式 完全 恢复 。 给 定 一 线性 
独立 而 不 一 定 正 交 的 关键 向 量 集 ， 该 向 量 集 合 将 在 生成 记忆 和 矩阵 有 之 前 完成 格拉 姆 一 施 密 特 正 
交 化 14] 过 程 。 即 : 给 定 关键 向 量 集 {z, x, …, Xx} ， 将 创建 一 个 新 的 正 交 向 量 集 {g1, 8， …, 8 ， 


该 向 量 集 与 原始 集 是 线性 一 一 对 应 的 。 执 行 格拉 姆 - 施 密 特 正 交 化 首先 通过 假定 g, = x,, AR, 
_ (8%), _ 
g =X; APAL (3-14) 


在 格拉 姆 - 施 密 特 正 交 化 之 后 ， 对 于 {gi, I =1, 2，… 月 执行 联想 。 如 果 关 键 向 量 构成 正 
交 向 量 集 ， 联 想 记 忆 的 存储 容量 的 上 限 是 a (n 是 网 络 维 数 ， 或 是 输入 空间 维 数 )。 通 常 ， 联 想 
记忆 的 存储 容量 是 p ( M)<n。 换 言 之 ， 存 储 极限 取决 于 记忆 逢 阵 的 秩 。 

例 3.1 要 发 展 一 个 自 联想 记忆 ,该 记忆 用 如 下 三 个 关键 向 量 来 训练 


-0.3333 0.4444 0.4969 
"x, =| 0.7778| x,=|-0.5556| x, = [0.6667 (3-15) 
0.5329 0.7027 0.5556 

















BT ABD ARTE, Ean kae, MRUAR RHA ERN, BRAD, F 
储 在 联想 记忆 中 的 每 个 记忆 模式 将 完整 地 再 现 。 所 以 ， 计 算 这 些 向 量 之 间 的 角度 将 是 有 益 的 ， 
并 且 因 此 决定 记忆 回忆 的 程度 如 何 。 式 (3-15) 中 向 量 之 间 的 角度 可 计算 为 : 


| 
6,, = cos” -2 -101.9。 (3-16) 
læ, Ill x bb 
xx 
0,3 = cos™' 1 3__ _ 495° (3-17) 
ix, Wl x, Il, 
x,x} 
@,, = cos! —~2"3__ = 761° (3-18) 


lx, lbll x Il 
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从 式 (3-16) ~ (3-18), BOT Bik = Pe Be PAE AA BIE CY. RAR eR ic 1 
根据 式 (3-6) 得 到 如 下 : 

0.5555 -0.1749 0.4107 
-0.1749 1.3582 0.3945 
0.4107 0.3945 1.0865 


使 用 式 (3-19) 中 的 记忆 和 矩阵， 通过 提交 式 (3-15) 中 的 关键 向 量 得 到 输入 关键 模式 的 估计 。 


M =x x] +x,x! + XY = (3-19) 








-0.1023 0.6326 0.3876 
$, = Mx, =| 1.3249| £, = Mx, =|- 0.5551] ê, = Mx, = | 1.0378 (3-20) 
0.7489 0.7268 1.0707 




















把 这 些 结果 与 式 (3-15) 的 原始 关键 向 量 作 比 较 , 发 现 估计 并 不 是 完全 的 副本 。 这 是 可 预料 的 ， 
由 于 向 量 的 非 正 交 性 ， 从 式 (3-16) ~ (3-18) 向 量 间 的 夹 角 所 证 明 ， 也 就 是 说 ， 并 不 是 所 
有 的 夹 角 都 是 90"。 然 而 ， 如 果 我 们 计算 式 (3-15) 中 每 个 规范 化 关键 输入 和 它 的 响应 (输出) 
向 量 之 间 的 欧 几 里 得 距离 ， 我 们 能 够 得 到 响应 和 原始 关键 向 量 多 么 “靠近 ”的 度量 。 
让 我 们 首先 确定 响应 向 量 加 和 每 个 关键 向 量 之 间 的 欧 几 里 得 距离 。 给 出 如 下 结果 : 
a allx, -£ ll,= 0.6319 ô, =li x, - ¥, ll, =1.9589 ô, =ll x, - ê, Il, = 0.9108 (3-21) 
从 式 (3-21) ， 因 为 6 是 最 小 的 ， 很 明显 ， 响 应 向 量 名 和 比 x: 或 zs 更 靠近 xz。 用 响应 向 量 疡 做 
相同 运算 ， 得 到 
ôn =llx, - È, l,=1.6575 ô, =llx, — $, Il, =0.1898 ô, =li x, - è, ll,= 1.2412 (3-22) 
正如 期 望 的 一 样 ， 我 们 发 现 响 应 向 量 UE I HP, ， 欧 几 里 得 距离 
计算 如 下 : 
ôa =li x, -t=0.9363 ô, =llx, -t=1.6363 6,, =Il x, — ¥, Il, = 0.6442 (3-23) 
并 且 如 期 望 的 一 样 ， 响 应 向 量 ARIE, 
我 们 试 作 一 个 不 同 的 (单元 长 度 ) 关键 向 量 集合 ， 如 下 : 











0.1309 -0.7548 -0.6354 
x, = |-0.9779| x, =| 0.0587| x, = | -0.2370 (3-24) 
-0.1629 -0.6533 0.7349 
这 些 向 量 之 间 的 夹 角 为 
T 
6, = cos! —~!*2__ = 92.9° 3- 
2 O08 x IIx, ih (3-25) 
x! 
0; = cos! ——3___. = 88,3° (3-26) 
ix, Uila Hl, 
T 
B, = cos! —2"3__ = 90.8" (3-27) ° 
> Ix, Illa; Ul 


从 式 (3-25) ~A (3-27)， 我 们 将 期 望 自 联想 回忆 过 程 比 以 前 好 ， 因 为 式 (3-24) 中 的 单元 
长 度 向 量 比 式 (3-15) 中 的 那些 向 量 更 “接近 于 ”相互 正 交 。 在 图 3-3 中 表明 了 这 一 点 。 给 定 
记忆 矩阵 为 ， 
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0.9906 -0.0217 0.0048 
M = xx! + xx] +x,x7 =|-0.0217 1.0159 -0.0532 (3-28) 
0.0048 -0.0532 0.9934 
使 用 式 (3-28) ， 对 式 (3-24) 中 关键 向 量 的 响应 为 : 
0.1501 -0.7521 -0.6207 
&, = Mx, =| -0.9876| %,=Mx,=| 0.1108| £, = Mx, =|-0.2661 (3-29) 
-0.1092 -0.6558 0.7396 














来 自 每 个 关键 向 量 的 响应 向 量 e LE : 

ô =llx, - ê l= 0.0579 ô, =llx, ~ $ ll,= 1.4865 ô, =I x, — ĉ, Il, = 1.3758 (3-30) 
由 式 (3-30) ， 响 应 向 量 为 与 x 或 x; 相 比 更 靠近 x,。 将 这 些 结果 与 由 式 (3-21) 给 出 的 关键 向 
量 先 前 集合 的 类 似 结果 进行 比较 ， 我 们 发 现 关键 向 量 的 第 二 个 集合 由 于 它们 更 加 正 交 而 产生 
更 好 的 结果 。 对 于 响应 向 量 z:， 结 果 为 : 


6, -lz - ê ll=1.4859 ô, =Ilx, - £, ll,= 0.0522 ô, =ll x, - , Il, = 1.4382 (3-31) 
qe, LRR. Ba, APRE, SR: 

ôn -lz - 8,11, = 1.3734 6 -lz - 8, ll,= 1.4365 ô; =Ilx, - £, Il, = 0.0329 (3-32) 
x BULK. 
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图 3-3 a) 式 (3-15) 所 示 的 关键 向 量 ， 向 量 之 间 的 夹 角 由 式 (3-16) ~X (3-18) 给 出 ，b) 
A (3-24) 所 示 的 关键 向 量 ， 向 量 之 间 的 夹 角 由 式 (3-25) ~ 式 (3-27) 给 出 


3.2.3 相关 符 阵 记忆 的 误差 修正 方法 


虽然 相关 矩阵 记忆 是 相当 简单 的 设计 ， 对 于 联想 记忆 来 说 这 种 方法 的 主要 弊端 是 在 回忆 
过 程 中 将 发 生 大 量 的 错误 。 在 最 简单 的 形式 中 ， 给 定 关键 输入 刺激 ， 相 关 和 撼 阵 记 忆 设 有 预备 
修正 在 回忆 记忆 模式 过 程 中 可 能 产生 的 误差 。 网 络 不 能 修正 误差 的 根本 原因 在 于 缺乏 从 输出 
到 输入 的 反馈 。 对 于 由 联想 x > Yo = 1, 2, …, h, WER (3-6) HRACIE M, HAI 
Hex ,产生 的 实际 输出 响应 ?并 不 是 足够 “接近 ”( 欧 几 里 得 意义 下 ) 完全 联想 记忆 的 期 望 (或 
真实 ) 响应 y,。 

我 们 想 把 误差 修正 机 制 融入 递归 公式 ， 以 强制 记忆 的 设计 能 达到 完全 联想 [15, 16]。 因 此 ， 
这 里 的 主要 目的 是 在 最 优 意义 下 ， 使 联想 记忆 重 构 记 忆 模 式 ， 从 而 提高 记忆 响应 y 的 质量 。 假 
设 Mr 表示 学 习 和 迭代 rz 时 的 记忆 和 矩阵， 随机 选择 关键 向 量 模式 六 为 z 次 夺 代 应 用 于 记忆 ， 使 用 





PIF RH WB 77 





结果 实际 响应 Ma), 构成 误差 向 量 

eT)=y - MO (3-33) 
其 中 yi 是 与 关键 输入 模式 x, 相 对 应 的 期 望 活动 模式 。 希 望 利 用 该 误差 项 以 某 种 方式 计算 正在 构 
建 的 记忆 算 阵 在 第 ti 次 迭代 的 调整 ,降低 重 构 的 误差 。 我 们 将 采用 最 迷 下 降 方 法 (BRAS 25) 
发 展 离 散 时 间 学 习 规 则 ， 它 是 式 (3-6) 中 递归 的 一 种 变形 。 这 个 基于 最 速 下 降 的 离散 学 习 规 
则 的 形式 为 : 

M(t+1)= M(t) - pV E (M) (3-34) 

其 中 E (MERR (或 李 雅 普 诺 夫 ) 函数 ， 即 : 

E (M)= Me, IP (3-35) 


由 式 (3-33), e,=y,-Mx, . TEX (3-34) He > 0 是 学 习 率 参数 。 计 算式 (3-35) 关于 记忆 
EREM HE IE 


VE (M) = -yx' + Mx, x (3-36) 
其 中 使 用 了 A.3.4.2 节 的 结果 ( 即 ， 标 量 关 于 和 矩阵 的 微分 )。 将 式 (3-36) 的 结果 代入 式 (3-34) 得 
M(t+D)= M(x) + uly, - Ma) ` (3-37) 


注意 到 式 (3-37) 中 方 括号 内 是 式 (3-33) 中 定义 的 误差 向 量 e。 因 此 ， 当 学 习 记 忆 和 矩阵 内 时 ， 
学 习 策 略 有 一 个 误差 修正 机 制 幅 入 算法 以 修正 误差 。 将 式 (3-37) 改写 为 : 
M(x +1) = MT) + py, x) - uM (T)x x] (3-38) 


将 式 (3-38) 与 式 (3-7) 的 原始 递归 相 比较 表明 : 附加 项 MCc)x, x) th HILT RE ELE. 
式 (3-37) 中 基于 误差 修正 的 监督 学 习 算法 反复 应 用 于 h 个 联想 的 每 一 个 ， 即 
X> Ve (3-39) 

其 中 k= 1,2, …, h 是 任意 选择 的 。 

注意 在 选择 学 习 率 参数 4 时 ， 必 须 确保 在 学 习 过 程 中 反馈 的 稳定 性 。 可 以 利用 固定 的 学 习 
率 参数 ， 或 关于 时 间 可 调 的 学 习 率 参数 (参看 2.5.1 节 )。 对 于 每 个 联想 ， 对 式 (3-37) 中 记忆 
矩阵 的 迭代 调整 继续 到 式 (3-33) 中 的 误差 向 量 ei( 如 变 得 相当 小 。 换 言 之 ， 对 第 个 联想 x 一 
yy 的 学 习 当 Max, “靠近 ”期 望 响应 yi 时 停止 ， 即 y, - 必 (T)x <0 。 这 将 导致 式 (3-35) 中 
的 性 能 标准 最 小 化 ， 并 且 从 优化 意义 下 人 允许 联想 记忆 重 构 记忆 模式 。 为 了 初始 化 ， 运 用 式 
(3-37) 中 的 误差 修正 机 制 ， 根 据 输入 /输出 对 {x yi 学习 记忆 和 矩阵 姥 ， 我 们 置 (0) = 0。 将 这 
些 结果 与 2.5.1 节 的 最 小 均 方 (LMS) 算法 相 比较 ， 可 发 现 式 (3-37) 是 LMS 算 法 形式 ,或 
delta 规 则 。 


3.3 反 向 传播 学 习 算 法 


现在 我 们 考虑 前 馈 多 层 感知 器 (MLP) 中 的 监督 学 习 。 特 别 地 ， 我 们 想 研 究 用 于 训练 
MLP 的 反 向 传播 算法 或 广义 的 delta 规 则 。 当 今 在 神经 网 络 学 习 过 程 中 运用 最 广泛 的 是 反 向 传 
播 ， 反 向 传播 在 1974[17] 由 Werbos 最 先 研究 。 然 而 随后 的 许多 年 这 项 工作 依旧 不 为 人 知 [18， 
19]。 这 个 方法 被 重新 发 现 了 很 多 次 ， 在 1982 年 由 Parker[20] (也 可 参考 [21, 221) ，1985 年 由 
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LeCun[23] 和 Rumelhart et al.7£1986(24, 25] 先 后 发 现 了 该 方法 。 也 许 是 Rumelhart 等 人 对 反 向 
传播 的 描述 使 该 算法 在 科学 和 工程 领域 流行 。 运 用 反 向 传播 算法 来 训练 MLP 导 致 非 线 性 映射 
或 联想 任务 。 因 此 ， 给 出 两 组 数据 ， 即 输入 /输出 对 ，MLP 能 使 突 触 权 值 用 反 向 传播 算法 来 调 
整 ， 以 产生 特定 非 线 性 映射 (参考 2.7 节 )。 经 过 训练 过 程 之 后 ， 有 具有 固定 权 值 的 MLP 能 提供 
联想 任务 用 于 分 类 、 模 式 辨 认 、 诊 断 等 。 在 MLP 的 训练 阶段 ， 突 触 权 值 被 调整 以 使 MLP 的 实 
际 输出 与 期 望 输出 之 间 的 差异 最 小 ， 该 差异 是 对 所 有 输入 模式 (或 学 习 例 子 ) 求 平均 而 得 。 
3.3.1 前 馈 多 层 感 知 器 的 基本 反 向 传播 算法 

本 节 我 们 将 阐述 标准 反 向 传播 学 习 算 法 的 推导 。 为 了 简化 ， 我 们 将 导出 具有 三 层 权 值 
( 即 一 个 输出 层 和 两 个 隐藏 层 ) 的 多 层 感 知 器 神经 网 络 (MLP NN) 的 学 习 规 则 ， 因 为 三 层 权 
值 是 运用 最 频繁 的 MLP NN 结 构 。 这 类 神经 网 络 的 例子 如 图 3-4 所 示 。 将 推导 扩展 至 网 络 具 有 
多 于 两 个 隐藏 层 的 一 般 情 况 是 很 直接 的 。 

对 MLP NN 的 训练 ， 标 准 反 向 传播 算法 是 建立 在 最 速 下 降 梯度 基础 上 的 ， 应 用 于 表示 瞬时 
误差 的 能 量 函数 的 最 小 化 。 

换言之 ， 我 们 希望 最 小 化 的 函数 定义 为 


1 , 1 ny 
E, = 5 (dy = Sea)" (dy = xon) = 5D (dan = Fos)” (3-40) 
=I 


Ford (CBB A BER AOS A, Va =Y, 是 图 3-4 所 示 的 MLP 网 络 的 实际 输出 。 通 
常 由 式 (3-40) 最 小 化 导出 的 权 值 更 新 方法 称 为 在 线 方法 ， 强 调 具 有 最 小 记忆 存储 需求 。 


第 1 层 活 
BIER ”， 动 水 平 第 2 层 权 第 3 层 权 
值 矩阵 向 量 值 和 矩阵 第 2 层 活 值 矩 阵 
y” yo y2 动 水 平 pO 
一 -一 一 一 一 一 一 人 一 一 一 一 一 一 第 3 层 活 





~ 
ng n x2 € "2x1 
Wn ng xe Rn! 
A A A A 

Ye es ee nO et 
输入 向 第 1 隐藏 层 第 2 隐藏 层 Hy nyt 响应 向 量 
量 模式 . 个 神经 元 7 个 神经 元 神经 元 (输出 ) 
xe R" yen”! 


图 3-4 一 个 三 层 前 馈 MLP NN 结构 的 例子 
运用 最 速 下 降 梯 度 方法 ， 对 于 网 络 任 意 层 的 网 络 权 值 学 习 规则 可 表示 为 : 
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ðE 


s) aw (3-41) 
其 中 s = 1, 2, 3 标 出 了 适当 的 网 络 层 ，A” > 0 是 对 应 的 学 习 率 参数 。 基 于 很 快 就 会 明了 的 原因 ， 
对 MLP NN 隐 藏 层 和 输出 层 权 值 ， 分 别 导 出 学 习 规 则 。 首 先 考 虑 网 络 的 输出 层 。 输 出 层 权 值 
可 以 根据 下 式 更 新 i 


Aw = -u 


ji 





a) E, 


Awp =u? S (3-42) 
ji 
运用 偏 导数 的 链 式 法 则 ， 式 (3-42) 可 改写 为 : 
Aw er (3-43) 


G) a) 
OU; W; 


A (3-43) 中 的 分 离 项 可 求 值 为 : 





(3) 
ear ar sa) =x (3-44) 
和 
ae a | Sl- FOP - -[a, 一 oo) om) (3-45) 
或 
5 = -(d y ~ x e(Uy?) = -6 (3-46) 


其 中 g(: ) 表 示 非 线性 激活 函数 所. ) 的 一 阶 导数 。 式 (3-46) 中 定义 的 项 通常 称 为 局 部 误差 或 


delta, 
合并 式 (3-43), IÑ (3-44) 和 式 (3-46) ， 可 得 到 网 络 输出 层 权 值 的 学 习 规 则 方程 





Aw? = pP, (3-47) 
或 
WO (K+ D = Wk) + OD x, (3-48) 
在 网 络 隐藏 层 权 值 的 更 新 方程 可 由 同样 方法 导出 。 运 用 最 速 下 降 梯 度 方法 ， 我 们 有 
dE dE, av” 
Aw? = -u” PRES = 一 KG a0" aa (3-49) 
A (3-49) 右边 的 二 阶 偏 导 数 可 求 值 为 : 
ov? a n Da a 
aw aw? aa: > wo Xou, 路- Xb (3-50) 


由 于 v* 的 改变 通过 网 络 输出 层 传播 进而 影响 整个 网 络 输 出 ， 因 此 ， 式 (3-49) 的 一 阶 偏 导 数 
计算 更 复杂 。 我 们 能 够 通过 表达 该 量 为 一 个 已 知 的 量 和 更 容易 求 值 的 其 他 项 的 函数 来 得 到 这 
个 导数 。 为 了 继续 进行 ， 我 们 能 够 写 : 


0E ð 1 ny í m ax 

q Oy (2) Xout,j 

2 一 2) > qh -f Wap X out, pe (3-51) 
avy? arf 让 |2 í Ail av” 
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或 


5 eo] (da, — XBR Wy, peP 


(3-52) 
ar 
联合 式 (3-49), sh (3-50) 和 式 (3-52) 得 到 : 
Aw? = 5x2), (3-53) 
或 
Wk + 1) = WP (k) + wb xD , (3-54) 


比较 式 (3-48) 与 式 (3-54) ， 我 们 发 现 输出 层 和 隐藏 层 的 权 值 更 新 方程 形式 是 一 样 的 ， 唯 一 
的 不 同 在 于 如 何 计算 局 部 误差 。 对 于 输出 层 ， 局 部 误差 与 实际 网 络 输出 同期 望 输出 之 间 的 差 
异 成 比例 。 延 伸 同 样 的 观点 到 隐藏 层 的 “输出 ， 隐 藏 层 中 一 个 神经 元 的 局 部 误差 可 视 为 与 该 
特定 神经 元 的 实际 输出 同期 望 输出 之 间 的 差异 成 比例 。 当 然 ， 在 训练 过 程 中 ， 隐 藏 层 神经 元 
的 期 望 输出 是 未 知 的 ， 因 此 ， 局 部 误差 需要 根据 所 有 相连 神经 元 的 误差 信号 来 递 推 估计 。 等 
式 (3-54) 可 推广 到 有 任意 多 隐藏 层 的 MLP NN。 对 于 任意 多 隐藏 层 的 网 络 可 表示 为 : 


WOED = wp (E + WO) x, (3-55) 
其 中 对 于 输出 层 : 
6 = (dy, -xa )8(0;) (3-56) 
对 于 隐藏 层 : 
Asa] 
a3 = (Sarr 20) (3-57) 


标准 反 向 传播 算法 的 小 结 
根据 下 面 算法 来 完成 运用 标准 反 向 传播 算法 进行 MLP NN 的 训练 。 


标准 反 向 传播 算法 





步骤 1 初始 化 网 络 突 触 权 值 为 很 小 的 随机 值 。 

步骤 2 从 训练 输入 /输出 对 的 集合 中 ， 提 交 一 个 输入 模式 并 计算 网 络 响应 。 

FRI 比较 期 望 的 网 络 响 应 与 实际 的 网 络 输出 ， 并 且 通 过 式 (3-56) 和 式 (3-57)， 计 算 所 有 局 部 
误差 。 

步骤 4 按照 式 (3-55) 更 新 网 络 权 值 。 

SRS 通过 步骤 2 到 步骤 4， 直 到 网 络 对 于 所 有 训练 模式 产生 适当 的 响应 到 达 一 个 预先 确定 的 精确 
度 水 平 。 g 


从 上 面 的 算法 可 看 出 ， 典 型 反 向 传播 算法 能 用 来 完成 两 个 独立 任务 : 第 一 个 是 从 输出 层 
节点 到 隐藏 层 节点 的 误差 的 反 向 传播 ， 第 二 个 是 运用 LMS 算 法 更 新 每 一 层 的 权 值 。 


3.3.2 使 用 标准 反 向 传播 中 的 一 些 实际 问题 


到 目前 为 止 , 对 于 MLP NN 的 训练 而 言 , 标准 反 向 传播 及 其 衍生 是 应 用 最 广泛 的 学 习 算法 。 
在 这 节 将 讨论 一 些 涉及 有 效应 用 的 实际 问题 。 








突 触 权 值 的 初始 化 

最 初 MLP NN 的 权 值 设置 是 小 的 随机 值 。 它 们 不 得 不 足够 小 ， 使 得 网 络 训练 不 从 与 一 些 饱 
和 节点 相对 应 的 误差 空间 上 的 一 个 点 开始 。 当 网 络 运行 在 饱和 状态 时 ， 对 于 学 习 收 敛 需要 许 
多 次 迭代 。 用 于 权 值 初始 化 的 一 个 普遍 使 用 的 启发 算法 是 设置 权 值 为 一 0.5/fan_in 到 0.5/fan_in 
区 间 均 勾 分 布 的 随机 数 ， 在 这 里 fan_in 表 示 权 值 为 馈 入 的 层 中 的 神经 元 的 总 数量 [26]。 对 于 有 
一 个 隐藏 层 的 MLP NN 情况 ， 在 Nguyen and Widrow[27] 中 建议 使 用 另外 一 种 方法 。 作 者 说 明 
该 方法 能 够 显著 地 提高 网 络 训 练 速 度 。Nguyen 和 Widrow 的 MLP NN 初始 化 能 够 用 如 下 算法 来 
小 结 


“Ao 


Nguyen 和 Widrow 的 初始 化 算法 


no= 输 入 层 分 量 的 个 数 
n = 隐藏 层 神经 元 的 个 数 
Y= 缩放 因子 

步骤 1 按照 如 下 式 子 计 算 缩 放 因 子 


y =0.7%n (3-58) 
步骤 2 初始 化 任 一 层 的 权 值 wi 为 在 一 0.5 到 0.5 之 间 的 随机 值 。 
步骤 3 按照 下 式 重 新 初始 化 权 值 : 





W; 
Wi = 
ey oa (3-59) 
w; 
i=l 
步骤 4 对 于 隐藏 层 第 i 个 神经 元 ， 设 置 偏 置 为 一 个 在 一 wi 到 wy 之 间 的 随机 值 。 口 


网 络 设置 和 网 络 的 泛 化 能 力 

MLP NN 的 设置 由 隐藏 层 的 数量 、 每 个 隐藏 屋 神 经 元 的 数量 以 及 用 于 神经 元 的 激活 函数 的 
类 型 决定 。 已 经 证 实 网 络 的 性 能 并 不 十 分 依靠 激活 函数 的 类 型 (只 要 它 是 非 线 性 的 )， 隐 藏 层 
数量 和 每 个 隐藏 层 单元 的 数量 的 选择 是 关键 。- 

Hornik et al.[28] 建 立 了 只 有 一 个 隐藏 层 ， 并 且 有 足够 数量 神经 元 的 MLP NN， 充 当 一 个 非 
线性 映射 的 通用 通 近 器 。 在 实际 中 ， 决 定 足 够 数量 的 神经 元 必须 达到 逼近 精度 的 期 望 程度 是 
十 分 困难 的 。 通 常 ， 隐 藏 层 单 元 的 数目 是 由 试 错 法 决定 的 。 此 外 ， 如 果 网 络 仅仅 有 一 个 隐藏 
层 ， 神 经 元 看 起 来 彼此 之 间 “ 相 互 作 用 ”[29]。 在 这 种 情况 下 ， 提 高 映射 在 一 个 点 的 逼近 而 在 
其 他 点 不 恶化 它 的 逼近 程度 是 十 分 困难 的 。 基 于 以 上 原因 ，MLP NN 通 常设 计 为 带 有 两 个 隐 
RE. 

典型 地 ， 为 了 使 用 MLP NN 解 决 实际 问题 ， 需 要 训练 一 个 相对 大 的 神经 网 络 结构 。 当 提交 
属于 训练 集合 的 输入 模式 时 ， 隐 藏 层 有 大 量 单 元 保证 有 和 良好 的 网 络 性 能 。 然 而 ， 一 个 “过 设 
计 ” 结 构 将 趋向 于 “过 拟 合 ”训练 数据 [30-32]， 导 致 网 络 泛 化 属性 的 丢失 。 为 了 弄 清 楚 这 点 ， 
考虑 如 下 例子 。 

例 3.2 训练 一 个 MLP NN 在 区 间 [0, 4] 内 逼近 非 线性 函数 

y =e "sin(3x) (3-60) 
对 于 带 有 50 个 神经 元 组 成 的 一 个 隐藏 层 的 神经 网 络 来 说 ， 这 是 一 个 相当 简单 的 问题 。 对 于 这 个 
例子 ， 区 间 [0, 4] 用 21 个 点 抽样 ， 彼 此 之 间 间 隔 为 0.2。 使 用 MATLAB 中 的 过 程 tzrainlm 实 现 网 
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络 训练 ， 激 活 函 数 使 用 双 曲 正切 非 线性 函数 ， 且 在 整个 数据 集合 上 目标 平方 误差 为 0.01。 网 
络 仅仅 在 5 个 回合 (epoch) 后 收敛 ， 图 3-5a 表 明了 对 于 训练 数据 集合 的 期 望 输出 与 实际 网 络 
输出 的 一 致 程度 。 为 了 测试 网 络 的 泛 化 能 力 ， 同 一 间隔 用 401 个 点 抽样 ， 它 们 彼此 之 间 间 陪 
0.01， 在 图 3-Sb 中 给 出 了 网 络 响应 。 如 图 3-Sb， 网 络 响应 并 没有 与 我 们 试图 逼近 的 图 数 表 现 出 
良好 的 一 致 。 这 是 由 于 训练 数据 过 适应 。 在 这 种 情况 下 ， 一 个 带 有 较 小 数量 神经 元 的 网 络 将 
以 更 好 的 方式 实现 有 逼近。 





-0.4 


40 0.5 1 1.5 2 25 3 35 4 l 
输入 


0051153 2 25 3 35 4 
输入 


和 输出， 测试 集合 :“ 
S 
人 


a) b) 
图 3-5 数据 过 适应 图 例 a) 训 练 输入 的 网 络 响应 ，b) 测 试 数据 集合 的 网 络 响应 


独立 检验 

仅 以 训练 数据 为 基础 来 评估 神经 网 络 泛 化 特性 绝 不 是 一 个 好 主意 。 运 用 训练 数据 来 评估 
网 络 的 最 终 表现 性 能 可 能 导致 过 适应 (overfitting )。 运 用 统计 上 称 为 独立 检验 的 标准 方法 可 
避免 过 适应 (参看 9.4 节 )。 该 方法 涉及 将 可 用 数据 划分 为 训练 集 和 测试 集 。 首 先 ， 整 个 数据 
集 通常 被 随机 化 。 接 着 训练 数据 分 成 两 部 分 ， 第 一 部 分 用 来 更 新 网 络 权 值 ， 另 一 部 分 用 来 评 
估 检验 ) 训练 性 能 (例如 ， 用 来 决定 什么 时 候 停 止 训 练 )。 然 后 ， 测 试 数据 用 来 评估 网 络 具 
有 怎么 样 的 推广 性 。 

WBE AE 

从 标准 反 向 传播 算法 的 推导 可 看 出 ， 它 是 2.5.1 节 陈述 的 LMS 算 法 的 推广 。 相 反 ， 用 于 训 
练 单 层 感知 器 的 LMS 算 法 可 视 为 标准 反 向 传播 算法 的 特例 。 在 2.5.1 节 已 说 明 LMS 算 法 的 收敛 
性 (尤其 速度 和 稳定 性 ) 主要 取决 于 学 习 率 参数 的 范围 。 为 了 确保 网 络 收敛 和 避免 训练 过 程 
的 振荡 ， 学 习 率 参数 必须 设 为 相对 小 的 值 。 由 于 小 的 学 习 率 参数 限制 网 络 权 值 的 改变 ， 从 而 
显著 影响 算法 的 速度 。 而 且 ， 如 果 网 络 训练 的 起 始点 远离 全 局 最 小 值 ， 则 一 些 神 经 元 将 饱和 
运行 。 当 发 生 这 种 情况 时 ， 激 活 函 数 的 导数 很 小 。 由 于 权 值 改变 的 范围 直接 取决 于 激活 函数 
导数 的 范围 ， 因 此 ， 网 络 可 能 陷 人 误差 曲面 的 平坦 区 域 ， 从 而 将 经 过 许多 次 迭代 才能 收敛 。 
对 于 中 等 复杂 的 现实 问题 网 络 训练 需要 数 小 时 、 甚 至 数 天 并 不 是 罕见 的 。 

反 向 传播 算法 的 慢 收敛 鼓励 了 用 于 MLP NN 训练 的 另 一 种 (快速 ) 算法 的 研究 。 快 速算 法 
的 研究 粗略 地 划分 为 两 类 : 第 一 类 由 标准 的 反 向 算法 各 种 启发 式 改 进而 来 。 虽 然 有 用 ， 且 在 
许多 情况 下 容易 理解 ， 启 发 式 算法 还 是 非常 具体 特殊 的 ， 它 们 的 性 能 特征 并 不 容易 建立 。 第 
二 种 类 型 包含 标准 数值 最 优化 技术 的 应 用 。 这 种 类 型 的 大 多 数 算法 以 增加 网 络 计算 复杂 性 为 
代价 ， 使 网 络 收敛 速度 有 重大 的 改进 。 这 两 种 类 型 的 一 些 代 表 和 流行 算法 在 后 面 的 章节 介绍 。 

除了 反 向 传播 学 习 的 修改 ， 输 入 数据 的 预 处 理 和 简化 也 能 够 导致 性 能 改善 和 训练 加 速 。 
也 就 是 说 ， 网 络 规模 的 减少 将 削减 它 的 复杂 性 ， 并 且 大 大 地 提高 收敛 速度 。 对 于 数据 预 处 理 
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的 一 些 方法 在 2.9 节 中 提 及 。 
3.3.3 具有 动量 更 新 的 反 向 传播 学 习 算 法 


具有 动量 更 新 的 反 向 传播 是 对 3.3.1 节 给 出 的 标准 算法 的 最 流行 的 修正 方法 之 一 。 该 算法 
的 思想 是 更 新 权 值 沿 瞬时 误差 曲面 当前 梯度 和 训练 前 一 步 获得 的 权 值 更 新 之 间 的 线性 组 合 方 
向 。 也 就 是 ， 权 值 根据 下 面 公式 更 新 
Awọ (K+1) = UO RX (k) + aVw' (k - 2) (3-61) 
或 
Wk +1) = wi (k) + KOLO Rx k) + od Ck — Denk - DI (3-62) 


其 中 a 通常 称 为 遗忘 因子 ， 通常 在 区 间 (0,1) 中 选 值 。 式 (3-61) 中 的 第 二 项 称 为 动量 项 ， 
它 通过 在 权 值 更 新 中 引进 稳定 性 来 提高 标准 反 向 传播 的 收敛 速度 。 直 观 上 根据 式 (3-61)， 如 
果 权 值 更 新 的 方向 与 前 一 步 相 同 ， 则 变化 率 增加 ， 反 之 ， 如 果 当 前 步 的 改变 与 前 一 步 的 方向 
不 一 致 ， 则 变化 率 降 低 。 对 一 些 利 用 标准 反 向 传播 很 难处 理 的 重要 情况 ， 这 类 学 习 显 著 提 高 
了 收敛 性 。 首 先 ， 如 果 训 练 模式 包含 一 些 不 确定 性 因素 ， 例 如 噪声 ， 则 具有 动量 的 更 新 通过 
阻止 该 权 值 更 新 方向 的 迅速 变化 来 提供 一 类 低 通 滤 波 ， 其 次 ， 这 种 行为 使 训练 对 出 格 点 
(outlier) 或 错误 训练 对 的 出 现 具有 免疫 能 力 。 同 时 ， 如 果 网 络 在 误差 曲面 的 平坦 区 域 运行 ， 
则 动量 的 出 现 将 提高 权 值 变化 率 ， 且 收敛 速度 将 增加 。 考 虑 以 下 权 值 更 新 方程 可 方便 解释 这 
一 点 [26] 
Aw'(k + 1) = -u ôE, 
ji aw” 


ji 





+aAw®(k-1) (3-63) 


如 果 网 络 在 误差 曲面 的 平坦 区 域 运行 ， 每 一 步 的 梯度 值 将 不 会 显著 变化 ， 因 此 ， 式 (3-63) 
可 近似 为 
ðE 


(s) 4 
owi aw 


au 





„òE 
Awe (k +1) ~ -u' OT 
Wi 


ðE 
= (+a +a? +E (3-64) 
ðw; 
uO oE, 


1-a ow!) 


因 遗 忘 因子 wx 总 是 比 单位 值 小 ， 因 此 ， 具 有 动量 的 更 新 将 有 效 学习 率 提高 为 





(3-65) 


3.3.4 批量 更 新 


标准 反 向 传播 算法 假定 权 值 由 每 一 输入 /输出 训练 对 更 新 ， 而 批量 更 新 方法 在 执行 更 新 之 
前 累计 几 个 训练 模式 (可 能 为 整个 回合 ) 的 权 值 修正 。 更 新 通常 由 每 个 输入 /输出 对 的 修正 的 
均值 构成 。 

批量 更 新 方法 的 优点 如 下 : 

1. 运用 几 个 (也许 全 部 ) 训练 对 ， 对 误差 曲面 给 出 比 用 于 标准 反 向 传播 的 瞬时 值 更 好 的 
估计 。 
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2. 通过 修正 平均 的 处 理 ， 批 量 更 新 步骤 提供 某 种 固有 的 训练 数据 低 通 滤波 。 在 训练 数据 
被 噪声 损坏 时 这 是 有 利 的 。 

3. 批量 算法 适用 于 更 复杂 的 优化 过 程 ， 如 共 罗 梯度 方法 或 牛顿 方法 。 

上 面 列 出 的 优点 是 以 下 面 这 些 因 素 为 代价 的 : 

1. 从 存储 需求 的 观点 看 批量 更 新 需要 更 多 。 显 然 ， 我 们 需要 额外 的 存储 空间 用 于 更 新 权 
值 前 的 权 值 修正 。 在 具有 大 量 权 值 的 网 络 中 记忆 储存 需求 变 得 非常 严重 。 

2. 权 值 修正 的 平均 额外 增加 了 算法 的 计算 复杂 性 。 

3. 对 于 非 批量 训练 模式 (如 标准 反 向 传播 )， 训 练 对 中 噪声 的 出 现 有 助 于 网 络 训练 逃离 误 
差 曲面 的 局 部 最 小 。 批 量 更 新 的 平 请 效果 使 算法 更 趋向 于 收敛 到 一 个 局 部 最 小 。 

通常 ， 批 量 更 新 反 向 传播 算法 的 性 能 非常 依赖 范例 。 对 于 在 整个 训练 集 执 行 平 均 的 批量 
更 新 和 标准 反 向 传播 之 间 的 一 个 良好 折 中 是 在 更 新 权 值 之 前 累积 几 个 训练 对 的 变化 。 这 使 学 
习 算法 在 不 显著 增加 陷入 局 部 最 小 的 可 能 性 前 提 下 产生 误差 曲面 的 更 好 估计 。 


3.3.5 搜索 然后 收敛 方法 


Darken et al.[33, 34] 提 出 的 用 于 加 速 反 向 传播 学 习 的 搜索 然后 收敛 方法 是 相对 简单 的 启发 
式 策略 (参看 2.5.1 节 )。 根 据 这 一 策略 ，MLP NN 中 的 反 向 传播 学 习 能 划分 为 两 个 阶段 : 在 第 
一 阶段 ， 网 络 离 全 局 最 小 相当 远 ， 这 个 阶段 称 为 搜索 阶段 。 在 搜索 阶段 学 习 率 相当 大 ， 儿 乎 
是 常数 ， 以 便 网 络 能 向 (误差 ) 性 能 曲面 的 最 小 值 方向 迅速 下 降 。 第 二 阶段 称 为 收敛 阶段 ， 
当 网 络 接近 全 局 最 小 时 开始 。 在 收敛 阶段 每 次 迭代 时 ， 学 习 率 减少 ， 人 允许 网 络 执行 权 值 的 精 
细 调 整 。 实 际 上 ， 判 断 网 络 离 全 局 最 小 值 有 多 远 是 不 可 能 的 ， 并 且 学 习 率 减少 的 策略 必须 提 
前 采用 ， 即 : 在 网 络 训练 开始 之 前 。 已 经 提出 了 两 个 通用 的 学 习 率 下 降 策略 [33-35]: 


u(k) = Ho (3-66) 


1 
1+k/k 
和 

1+(c/ My (K/ ky) 

1+ (c/ My (K/ ky) + ky (K/ ky)? 
其 中 4。> 0 代表 初始 学 习 率 参数 ，c 和 ko 是 恰当 选择 的 常量 。 典 型 地 ,1 < c/u < 1008 
100 < ko < 500。 在 式 (3-66) 和 式 (3-67) H, Hk < 时， 学 习 率 参数 近似 为 常量 ho。 这 对 
应 于 搜索 阶段 。 当 k >> kt, ÆA (3-66) 中 学 习 率 以 JK 的 比例 降低 ， 在 式 (3-67) PEALK 
的 比例 降低 。 已 经 证 明 ， 恰 当地 选择 参数 c 和 如 ， 搜 索然 后 收敛 策略 能 显著 提高 反 向 传播 算法 
的 速度 [35]。 


3.3.6 可 变 学 习 率 的 批量 更 新 


可 变 学 习 率 的 批量 更 新 代表 提高 批量 更 新 的 反 向 传播 算法 收敛 速度 的 一 个 简单 启发 式 策 
略 。 该 策略 的 思想 是 ， 如 果 前 一 步 的 学 习 已 经 降低 了 总 误差 函数 ， 则 增加 学 习 率 的 范围 。 相 
反 地 ， 如 果 增 加 误差 函数 ， 则 学 习 率 需要 降低 。 算 法 可 小 结 如 下 [32]; 

1. 如 果 在 整个 训练 集合 中 误差 函数 已 经 降低 ， 通 过 乘 一 个 数 n > 1 (典型 地 ，7 = 1.05) 来 
增加 学 习 率 。 

2. 如 果 误 差 函数 增加 超过 百 分 之 $ (典型 地 为 百 分 之 几 )， 通 过 乘 一 个 数 X < 1 (典型 地 ， 
X=0.7) 来 降低 学 习 率 。 

3. 如 果 误 差 功能 增加 少 于 百 分 之 5， 学 习 率 维持 不 变 。 





Uk) = Ho (3-67) 
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应 用 可 变 学 习 率 进行 批量 更 新 在 平滑 而 缓慢 下 降 的 误差 函数 情况 下 能 够 显著 加 快 收敛 。 
然而 ， 该 算法 可 能 易于 陷 人 误差 曲面 的 一 个 局 部 最 小 。 为 了 避免 这 点 ， 学 习 率 不 允许 降低 到 
特定 值 Lwin 之 下 。 


3.3.7 ” 反 向 传播 算法 的 向 量 矩 阵 形式 


这 里 我 们 介绍 反 向 传播 算法 的 向 量 矩 阵 形式 。 从 实际 实现 角度 ， 由 于 现代 大 多 数 的 硬件 
和 软件 没有 并 行 处 理 能 力 ， 算 法 的 向 量 矩 阵 形式 只 有 有 限 的 应 用 。 然 而 ， 和 矩阵 向 量 形式 给 出 
了 反 向 传播 的 可 观 了 解 ， 更 重要 地 ， 它 允许 用 于 加 快 学 习 收敛 的 某 些 高 级 数值 优化 技术 更 直 
接 的 应 用 。 

参考 图 3-4， 指 定 能 量 函 数 为 


1 、 
E, = 了 (ds = xg), (d, = xa) (3-68) 


Heed aR Bg TAA RN, Xa = 是 图 3-4 所 示 MLP 网 络 的 实际 输出 。 所 以 ， 
A (3-68) 表示 误差 曲面 的 一 个 瞬时 估计 。 使 用 最 速 下 降 方法 ， 突 触 权 值 更 新 方程 能 够 写 为 : 
wo k+l) = wi (kK) -a 30 (3-69) 
其 中 s = 1, 2, 3 表示 网 络 层 数量 ，a" 是 与 特定 层 相关 的 学 习 率 参数 。 应 用 链 式 法 则 到 式 (3-68) 
的 能 量 国 数 中 偏 导数 ， 我 们 得 到 : 
dE, dE, au 
aw au “awe 
其 中 为 了 简化 起 见 离散 时 间 的 指标 k 被 省 略 。 
A (3-70) 右边 第 二 项 能 按 下 式 求 值 : 


av ð 
Lo = ws- | o pii) 
(s) (s) > Win Xouh | = Xou,j (3-71 ) 
ïj ij =l 


式 (3-70) 右边 第 一 项 通常 作为 一 个 灵敏 度 (sensitivity) 项 。 实 际 上 ， 它 确定 式 (3-68) 中 
由 于 第 * 层 的 权 值 改 变 引 起 的 能 量 函 数 的 变化 。 所 以 ， 我 们 可 以 定义 














ðE 
A- (3-72) 

并 且 使 用 式 (3-70) 和 式 (3-71) 来 重 写 式 (3-69) 为 

wy (k +1) = wi (k) +a S x) (3-73) 
或 以 向 量 矩 阵 形式 

WP kt) = WOKO Dox? (3-74) 
HPD 表示 第 s 层 的 灵敏 度 向 量 ， 定 义 为 : 

po a _[2E 2E, aE, (3-75) 


a Sa, a 
avi’ avs? avy? 


灵敏 度 计算 
让 我 们 首先 考虑 图 3-4 给 出 的 网 络 输出 层 。 在 灵敏 度 向 量 中 的 单个 项 求 值 为 : 


(3-70) | 
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ðE ð 


9 二 一 -一 一 一 
= 
av? av 


9 JIL, re 下 3-76 
加 av? | >| Ae fu; | | ( ) 
= -ay 一 FOF) = -dv - x 8”) 

其 中 g(x) = df(x)/dx 表 示 激 活 函 数 的 一 阶 导 数 。 


把 式 (3-76) 代入 式 (3-75)， 把 网 络 输 出 层 的 灵敏 度 向 量 表示 为 : 
D® = Gu Xd, _ x?) (3-77) 


其 中 GW”) = diagle(v??),80@ 9). 8) 。 现 在 ， 我 们 寻找 网 络 的 第 二 层 和 第 一 层 的 灵敏 度 
向 量 。 使 用 式 (3-75) 中 灵敏 度 向 量 的 定义 和 链 式 靶 则 ， 能 够 将 第 二 层 的 灵敏 度 写 为 : 


了 T 
D” = ðE, = av? bE, = av DO (3-78) 
av (au?) av (av? 


等 式 (3-78) 表明 第 二 层 灵敏 度 向 量 能 够 作为 输出 层 灵 人 敏 度 的 函数 。 在 式 (3-78) 中 的 两 个 
灵敏 度 之 间 的 线性 变换 用 如 下 的 雅 可 比 和 矩阵 表示 : 





[50,8 a, =D] 











ne (3-79) 








Do = (22) me | (3-80) 
考虑 式 (3-79) 给 出 的 变换 雅 可 比 和 矩阵 的 一 个 单项 : 


av” a È D.O 
[i 
一 一 一 一 一 一 一 wy xX 
(2) (2) > ih “Youth 
av; av; - 


of (Ww) 

(3) E FD 3 of D 

=w; gu =w; fC; daw, gv; ) 
j 


把 式 (3-81) 代入 式 (3-79)， 我 们 发 现 雅 可 比 和 矩阵 能 够 重 写 为 : 


D 
ay OXouy 


ij av 





(3-81) 





av” r 3 2 3 
(Se = [WeG( = Gu Wer (3-82) 


其 中 GO?) = diagle(v)?), 802). gv Me 
最 后 ， 合 并 式 (3-82) 与 式 (3-80) 得 到 
D® = G) WD (3-83) 
使 用 同样 的 方法 ， 我 们 能 够 把 第 一 层 的 灵敏 性 表示 为 ， 
D? = Gv) WT p® (3-84) 
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等 式 (3-74), HK (3-77), I (3-83) 和 式 (3-84) 构成 反 向 传播 学 习 规 则 的 向 量 矩 阵 表 


反 向 传播 算法 的 向 量 矩 阵 形式 


“PZS nee a OP A 





RAD COHEN SRN SENS SNA STS SR PR RPE SE SIR DALE SEES SE NE MASEL ET 


步骤 1 提交 一 个 输入 模式 并 且 计算 网 络 和 在 所 有 内 部 层 的 输出 。 
步骤 2 对 于 每 一 层 ， 按 照 下 式 计算 灵敏 度 向 量 : 
TABE: DO =GO Vd, - x) 
对 于 所 有 隐藏 层 : DE -二 GO D) wpe 
步骤 3 按照 下 式 更 新 网 络 突 触 权 值 
W(k + 1) = w? Fa Dg or 
步骤 4 继续 步骤 1 到 步骤 3 直到 网 络 达到 期 望 的 映射 精度 。 口 


3.4 加 速 学 习 反 向 传播 算法 


这 池 介 绍 标准 反 向 传播 算法 的 几 个 修改 。 如 先前 指出 的 ，MLP NN 的 学 习 实 际 上 是 最 小 
化 实际 的 与 期 望 的 网 络 输出 之 间 的 均 方 误差 (MSE)。 使 用 MSE 标 准 的 相关 问题 在 数值 分 析 
中 已 经 很 好 地 研究 。 这 里 介绍 的 反 向 传播 算法 的 修改 基于 对 MLP NN 训 练 问题 应 用 高 级 的 数 
值 技 术 。 


3.4.1 HRS BARRE Ree 


KEREDE (参看 A.5.5 节 ) 是 用 于 解决 各 种 最 优化 问题 的 著名 数值 技术 。 由 于 它 代 表 
了 最 速 下 降 算法 的 简单 性 与 牛顿 方法 (参看 A.5.3 节 ) 的 快速 二 次 收敛 性 之 间 的 一 个 良好 折 中 ， 
所 以 被 广泛 使 用 。 已 经 发 展 了 几 个 基于 共 斩 梯 度 方法 的 训练 MLP NN 的 方法 ， 在 [36] 中 给 出 了 
综合 性 的 总 结 。 这 些 算法 的 绝 大 部 分 建立 在 假定 解 的 邻 域内 网 络 所 有 权 值 的 误差 函数 能 够 用 
一 个 二 次 函数 来 准确 地 近似 。 也 就 是 说 ， 


se ve 





Ag 2 1 
J) = 35D, D dmm) =5"'Qw-b'w (3-85) 


其 中 w 代 表 网 络 中 所 有 权 值 ，P 是 训练 模式 的 总 数 ，n, 是 输出 层 中 神经 元 的 数目 ，4d,, 是 输出 层 
中 第 h 个 神经 元 对 第 p 个 训练 输入 的 期 望 输出 ，y,s 是 输出 层 中 第 h 个 神经 元 对 第 p 个 训练 输入 的 
实际 输出 。 式 (3-85) 中 和 矩阵 CQ 是 二 阶 偏 导数 方 阵 ， 即 黑 塞 (Hessian) RE. RAAT 
数 等 于 网 络 中 权 值 的 总 数 。 共 轿 梯 度 算法 试图 发 现在 误差 表面 的 共 轿 方向 系统 并 执行 这 些 方 
向 上 的 权 值 更 新 。 由 于 黑 塞 矩 阵 @ 非 常 大 ， 它 的 计算 是 不 可 行 的 ， 绝 大 部 分 用 于 训练 MLP NN 
的 共 圈 梯度 算法 试图 不 用 显 式 计算 黑 塞 矩 阵 来 发 现 共 轿 梯度 方向 。 用 于 训练 MLP NNA HE 
梯度 方法 的 一 些 实际 计算 在 [35, 37, 38] 中 找到 。 

在 这 节 介 绍 的 算法 采用 和 基于 共 斩 梯 度 的 MLP NN 训 练 不 同 的 方法 。 代 替 考 虑 误差 表面 ， 
该 算法 在 每 一 个 神经 元 处 构造 一 组 法 方程 ， 然 后 使 用 共 罗 梯度 方法 迭代 求解 。 在 该 算法 的 表 
达 中 ， 紧 密 地 遵循 在 [39] 中 的 处 理 。 

在 推导 标准 反 向 传播 算法 的 过 程 中 ， 我 们 已 经 指出 它 可 以 看 作 在 网 络 训练 中 一 起 工作 的 
两 个 不 同 过 程 的 折 中 。 第 一 个 过 程 是 在 MLP NN 的 每 个 节点 处 局 部 误差 的 估计 。 通 过 输出 层 
误差 的 反 向 传播 完成 ， 输 出 层 误差 能 够 由 隐藏 层 神经 元 的 实际 与 期 望 响应 的 差异 来 显 式 计算 。 
第 二 过 程 是 网 络 权 值 的 更 新 。 在 3.3.1 节 中 ， 标 准 反 向 传播 算法 使 用 LMS 算 法 来 执行 权 值 更 新 。 


DD 
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理解 这 两 个 过 程 是 分 开 的 并 且 本 质 上 相互 独立 是 非常 重要 的 。 它 允许 不 同 权 值 更 新 算法 的 发 
展 而 保持 误差 反 向 传播 过 程 。 使 用 更 复杂 的 梯度 下 降 技 术 更 新 网 络 权 值 将 加 快 训练 过 程 。 

当 每 个 训练 模式 网 络 输出 在 期 望 输出 的 指定 容忍 度 内 的 时 候 ，MLP NN 认 为 是 训练 好 的 。 
为 了 达到 这 个 目的 ， 网 络 的 每 个 神经 元 不 得 不 恰当 地 训练 。 换 名 话说， 训练 MLP NN 意味 着 
训练 网 络 内 的 每 个 节点 达到 期 望 响应 。 参 看 图 3-4， 每 个 节点 由 自 适 应 线性 单元 (通常 称 为 线 
性 组 合 器 ) 和 其 后 的 S 形 非 线性 所 组 成 。 非 线性 的 存在 是 MLP NN 的 强大 映射 能 力 的 来 源 。 另 
一 方面 ， 正 是 这 些 非 线 性 的 出 现 增加 了 网 络 训练 的 复杂 性 。 我 们 可 以 观察 到 ， 如 果 线 性 组 合 
器 产生 一 个 恰当 的 输入 给 激活 函数 ， 非 线性 激活 函数 的 输出 将 是 期 望 响应 。 所 以 ， 我 们 可 以 
归纳 为 : 训练 MLP NN 主要 涉及 调整 权 值 ， 使 网 络 的 每 个 线性 组 合 器 产生 期 望 输出 。 

线性 组 合 器 的 法 方程 

考虑 图 3-4 给 出 的 MLP NN 第 * 层 第 ;个 线性 组 合 器 。 当 第 4 个 输入 模式 提交 给 网 络 时 ， 组 合 
器 的 输出 当 作 组 合 器 权 值 w" OR" 与 特定 层 的 输入 向 量 E RS NBL, BD, 


yO = wert (3-86) 


假定 某 时 刻 对 于 特定 组 合 器 的 期 望 输出 是 di? ， 它 对 训练 集合 中 的 每 个 模式 是 已 知 的 。 有 效 的 
训练 MLP NN 假设 为 它 的 所 有 线性 组 合 器 的 训练 。 所 以 ， 学 习 算 法 的 目标 是 最 小 化 如 下 的 二 
乘 误差 代价 函数 





Je -> uy (3-87) 
其 中 1 表示 训练 集合 中 向 量 的 总 数 。 把 式 (3-86) RAR (3-87) 中 ， 可 写 为 


-iS a-w wa (3-88) 


为 了 寻找 最 小 化 式 (3-88) 给 出 的 代价 函数 的 权 值 向 量 ， 可 以 求 得 它 的 关于 w 的 偏 导 数 ， 并 
且 使 之 为 0， 即 





(5) M 
a pa dig Kong + Xong Xong Wi) =O (3-89) 
定义 
M 

Cr ‘ad Xiong Fou (3-90) 
且 

nay dix Sune (3-91) 
等 式 (3-89) LAT RARE Ke rE A 

COW = ph (3-92) 


矩阵 CO 能 够 解释 为 第 * 层 的 输入 向 量 间 的 协 方 差 矩阵 的 估计 ， 并 且 向 量 p BSR RMA 
与 线性 组 合 器 的 期 望 输出 之 间 的 互相 关 向 量 的 一 个 估计 。 注 意 矩 阵 C}” 并 不 依靠 线性 组 合 器 
EENDE, Alk, FRITUER., I (3-92) 中 的 矩阵 向 量 方程 在 自 适应 滤波 的 背景 中 
以 确定 法 方程 (deterministic normal equation) 的 名 称 而 著名 [29]。 法 方程 的 解 最 小 化 式 (3-87) 





3# RH AA 89 





给 出 的 二 次 误差 函数 。 总 之 ， 对 于 MLP NN 的 每 个 线性 组 合 器 输出 都 可 以 写成 式 (3-92) 给 出 
的 方程 组 形式 ， 并 且 ， 网 络 训练 能 够 很 方便 地 看 作 一 个 涉及 它们 解 的 过 程 。 

RAR tk HAL HAE Y iE 

有 一 些 用 于 求解 式 (3-92) BUMRESRAAM RRA, HZ REE. 
在 这 节 中 ， 我 们 仅仅 给 出 算法 。 强 烈 鼓 励 读 者 仔细 阅读 A.5.5 节 。 


求解 法 方程 的 共 辆 梯度 方法 


“me 初始 化 权 值 向 量 WOJEI 的 分 量 为 一 些 人 全 全 
步骤 2 设置 4= 0。 计 算 初始 化 共 酌 方 向 由 和 增益 向 量 8u， 
d, = -8 = p!” - oni 


步骤 3 BKM AK 
a, =~ pA A ee g, = CO Wk) — p” 


步骤 4 更 新 权 值 向 量 


d; PETA 


w(K +l = wi (k) + 0,4, 
步骤 5 确定 新 的 增益 向 量 
Bin = CW (k +1) p” 
步骤 6 AAE EDAR RA A 
Bind, 


din = Bi +B, BH B, = g'g 
at 
步骤 7 设 t=k+1， 并 且 检 验 终 止 条 件 。 如 果 k <n， 转 到 步 台 3， 否则， 停止 


完成 上 述 步骤 得 到 的 向 量 w'” 求 解 特定 线性 组 合 器 的 法 方程 。 

训练 算法 

以 前 一 节 给 出 的 形式 ， 存 在 应 用 共 力 梯度 算法 相关 的 一 些 主要 困难 。 除 输出 情节 点 外 ， 
特定 池 点 的 期 望 输出 并 不 知道 。 这 意味 着 对 隐藏 层 的 所 有 节点 不 得 不 估计 。 为 了 完成 这 点 ， 
参考 3.3.1 节 及 局 部 误差 的 物理 解释 。 我 们 已 经 提 到 ， 局 部 误差 表示 神经 元 的 实际 输出 与 期 户 
输出 之 间 的 误差 估计 。 该 估计 仅仅 基于 一 个 训练 输入 /输出 对 和 网 络 权 值 的 当前 值 ， 因 此 ， 我 
们 不 奢望 在 网 络 训练 的 初期 它 是 准确 的 。 然 而 ， 随 着 训练 进行 ， 误 差 的 估计 变 得 更 精确 。 知 
道 特定 节点 的 实际 输出 和 局 部 误差 ， 能 够 计算 出 第 * 层 第 ;个 神经 元 对 第 4 个 训练 模式 的 期 望 
输出 














dE = x0, + U6 (3-93) 
其 中 必 是 一 正 数 ， 通 常 取 值 在 10 到 400 之 间 [39]。 式 (3-93) 给 出 了 MLP NN 的 每 个 神经 元 的 期 
望 输出 的 估计 。 当 导出 法 方程 组 时 ， 假 设 已 知 线性 组 合 器 的 期 望 输出 。 由 于 激活 函数 通常 选 
择 为 单调 增长 S 形 函数 ， 神 经 元 的 输出 与 线性 组 合 器 的 输出 之 间 存 在 一 一 对 应 。 给 出 神经 元 的 


输出 ， 组 合 器 的 输出 可 以 计算 为 
vo = fd) (3-94) 
通过 选择 合适 的 激活 函数 ， 能 够 容易 地 表示 出 (3.94) 中 的 逆 。 例 如 ， 如 果 激 活 函 数 选 择 为 


1 _ eo 


y=f(= (3-95) 
1+ 
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其 中 o 是 控制 倾斜 度 的 参数 ， 逆 了 国 数 可 表示 为 
1+ 


i 1 
t= f'Q)= Fin (3-96) 


应 用 式 (3-96) ~x& (3-95) ， 得 到 线性 组 合 器 的 期 望 输出 为 
+d 


Ais 1 
{s} 
Vig -oh n toa (3-97) 


Bi E IR A SE eB E AB 2 A EC A SET Ep, AR, RAH 
不 知道 ， 所 以 不 得 不 在 训练 过 程 中 估计 它们 。 做 到 这 一 点 的 方便 办 法 为 : 对 于 每 次 提交 的 输 
入 /输出 训练 对 更 新 它们 的 估计 。 对 第 s 层 的 相关 矩阵 估计 可 写 为 


C' (kh + P= CM (k) + x x (3-98) 
类 似 地 ， 每 个 线性 组 合 器 的 互相 关 向 量 可 估计 为 
p(k+1)= bp“ (kK) +0; Hy O7 ; (3-99) 


在 式 (3-98) MA (3-99) 中 的 系数 5b 称 为 遗忘 因子 ， 决定 以 前 的 协 方差 拭 隆 和 互相 关 向 量 
(在 式 (3-98) 和 式 (3-99) 右边 的 第 一 项 ) 的 瞬间 估计 的 权 值 。 典 型 地 ，b 设 置 在 0.9 ~ 0.99 
的 范围 内 。 

基于 上 面 的 评述 ， 我 们 提供 算法 的 一 个 小 结 。 


训练 MLP NN 的 基于 共 罗 梯 度 算法 


A OR a SO KE 


步骤 1 初始 化 网 络 权 值 为 一 些小 的 随机 值 。 在 3.3.2 节 中 描述 的 任何 权 值 初始 化 技术 都 可 以 使 用 。 
步骤 2 传播 第 4 个 训练 模式 到 整个 网 络 ， 计 算 每 个 节点 的 输出 。 
HRS 计算 网 络 中 每 个 节点 的 局 部 误差 。 对 于 输出 节点 ， 局 部 误差 计算 为 


ôO = (di, — X08) 
其 中 8(  ) 是 激活 函数 所 . ) 的 导数 。 对 于 每 个 隐藏 层 节点 ， 局 部 误差 计算 为 


a (B orre) 
步骤 4 对 于 每 个 线性 组 合 器 的 估计 ， 期 望 输出 为 
vy =f" ‘(de ) 其 中 a s x + pd 
步骤 5 EHS RMT EEEH 
CO (kK) = CO (k -1) + ex 
更 新 每 个 节点 的 互相 关 向 量 的 估计 
p(k)= bp (k- D+ 0x {s ue 
其 中 为 模式 提交 的 指标 。 


步骤 6 更 新 网 络 中 每 个 节点 权 值 向 量 如 下 
(a) 在 每 个 节点 处 计算 
gP (k) = CO (kw? (k) - pe, Bil 
如 果 吕 "=0， 并 不 更 新 节点 的 权 值 向 量 ， 转 到 步 又 7， 和 否则 执行 下 面 的 步骤 ; 
(b) 找到 方向 gf 各 。 如 果 和 迭代 次 数 是 节点 权 值 数量 的 整数 倍 ， 则 
du (k) = -8 (k) 


eA RI 





否则 
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d)(k)= -gi (k) + Bod k- 1) 
其 中 
C Dd (kL) 
Bis) = (ir k _ 
Pi 8 ( a (k-1)C' dN kD 


(c) 计算 步 长 大 小 





8 dod)" k) 
d! oT (KC (kd! “ky 





a(k) = 


(d) 修改 权 值 向 量 根据 
WPR) = wi = 1) + d A) 
步骤 7 如 果 网 络 并 未 收效， 回 到 步 又 2。 D 


一 些 评注 是 关于 上 面 介绍 的 算法 的 。 FAT OR PE J FERI FE SB BE k BD a Bi AW 
初 看 起 来 ， 很 明显 ， 每 次 提交 一 个 新 训练 输入 /输出 对 时 ， 线 性 组 合 器 权 值 向 量 更 新 需要 执行 
2? 步 。 然 而 ， 并 不 这 样 做 是 由 于 下 面 的 原因 。 在 训练 期 间 ， 仅 仅 知 道 协 方差 矩阵 和 交叉 相关 向 
量 的 估计 。 所 以 ， 相 应 的 法 方程 的 精确 解 并 不 产生 所 需要 的 权 值 向 量 。 在 网 络 训 练 的 初期 这 
是 非常 真实 的 。 随 着 训练 的 进行 ， 互 相关 向 量 和 协 方差 矩阵 的 估计 逐渐 稳定 ， 因 为 它们 对 于 
几 个 训练 输入 /输出 对 保持 近似 不 变 ， 对 于 每 个 输入 /输出 对 执行 一 个 共 斩 梯 度 步 最 就 是 够 了 。 
当然 ， 由 于 整个 过 程 本 来 是 非 线性 的 ， 网 络 训练 将 并 不 在 n 步 内 完成 。 从 步 又 6 我 们 发 现在 a 个 
共 罗 梯度 步骤 以 后 ， 共 罚 梯 度 更 新 重新 初始 化 ( 即 开始 于 最 速 下 降 步 又 )。 


3.4.2 基于 最 小 二 乘 的 递归 反 向 传播 算法 


我 们 在 前 一 节 中 已 经 看 见 MLP NN 的 训练 可 以 理解 为 一 个 求解 确定 法 方程 组 的 过 程 。 网 络 
中 每 个 线性 组 合 器 的 法 方程 组 可 写 为 : 
Cow = p” (3-100) 


其 中 C" 表 示 第 s 层 输入 的 协 方差 矩阵 ，p*" 是 第 s 层 输入 与 第 s 层 上 的 第 i 个 线性 组 合 器 期 望 输出 
之 闻 的 互相 关 向 量 ， 并 且 wj” 表 示 到 第 * 层 的 第 /个 线性 组 合 器 的 突 触 权 值 向 量 。 如 果 假 定 协 方 
差 矩 阵 C ”和 互相 关 向 量 下 "已 知 ， 适 当 的 权 值 向 量 可 以 计算 为 
we = [C0 p (3-101) 
然而 ， 我 们 并 没有 清楚 知道 协 方差 矩阵 或 互相 关 向 量 ， 并 且 在 网 络 训练 的 整个 过 程 中 不 得 不 
估计 它们 。 通 过 使 用 式 (3-98) 和 式 (3-99) 能 够 得 到 这 些 估计 ， 式 (3-100) 中 的 法 方程 组 
系统 不 得 不 用 一 个 碗 代 方 法 来 求解 。 在 前 一 节 中 ， 我 们 运用 共 轿 梯度 方法 来 完成 这 个 任务 。 
这 里 ， 我 们 探索 基于 递归 最 小 二 乘 (RLS) 方法 的 求解 式 (3-100) 的 方程 组 的 另外 一 种 方法 
[29]。RLS 算 法 能 够 通过 对 每 次 提交 的 输入 /输出 训练 对 直接 实现 相关 和 矩阵 的 逆 [C"] 的 自 适 
应 递归 估计 来 求解 (3-101) 中 的 权 值 向 量 。RLS 算 法 可 以 视 为 一 个 卡尔 曼 滤 波 (Kalman 
filtering) 的 特例 [29]， 由 于 这 个 原因 这 里 介绍 的 方法 有 时 称 作 基于 卡尔 曼 滤 波 的 反 向 传播 算 
法 [40]。 为 了 推进 RLS 反 向 传播 算法 的 进展 ， 我 们 从 一 个 在 矩阵 代数 中 熟知 为 矩阵 求 北 引 理 的 
重要 结论 开始 。 
矩阵 求 弟 引 理 〈 伍 德 伯 里 (Woodbury) 恒 等 式 ) 
假定 4 ER’ "FB ER"*” 是 具有 下 列 关系 的 两 个 正定 矩阵 〈( 见 A.2.7 池 ): 
A=B'+CD C (3-102) 
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其 中 D E 针 "是 另 一 个 正定 矩阵 ，C E 名 "**。 那 么 ， 和 矩阵 4 的 逆 和 矩阵 可 写成 


A`'=B —-BC(D + C'BC) 'C'B (3-103) 
RLS 反 向 传播 算法 的 推导 
考虑 式 (3-98) 中 的 协 方差 矩阵 的 更 新 方程 ， 为 了 方便 在 式 (3-104) 中 重复 
C (k) = BE (k= 1) + xE (ROT O (3-104) 


比较 式 (3-104) 与 式 (3-102) ， 可 以 令 4 = CD, B= bCOK-1), C=x (FAD = 1, 
为 了 简化 符号 ， 我 们 定义 

Xong (AX? (3-105) 
使 用 式 (3-103) 中 得 到 的 结果 ， 能 够 得 到 
B'COK- DT XEO XE b COR - Dy! 


(s) “lp temp ay. 
[C (k)] =b [C (k DJ 1+ XET "COR -DP Xe? 


(3-106) 


定义 
(COP _ yy xe? 
K(k)A b + Xcu” (k _ py xe? 


可 以 把 式 (3-107) 代入 式 (3-106), FSH 
{CT = bC k- DT -KOX CORK - DT} (3-108) 
等 式 (3-107) 和 式 (3-108) 给 出 了 MLP NN 中 每 个 隐藏 层 的 协 方差 矩阵 的 逆 的 递归 估计 机 制 。 
联合 式 (3-99) 和 式 (3-101) 得 到 
WOCO = [COCK p(k) = (CORY Php (k -1)+ BO) XO? ] (3-109) 
把 式 (3-108) 中 的 协 方差 矩阵 的 逆 的 表达 式 代 入 式 (3-109) 得 到 
w (k) = BCS -DI -KOX PCR DTP} 
[bp (k -1)+ 0 (kT) 
= [CK DY! p(k - 2) = KON [CÀ (KK _ DY (3-1 10) 
pO (k-1)+ b ICO (k DPB)? = BK (RKO 
[CP (k DTG (XE 


(3-107) 


wO (k) = wk KK) XO wk 1) + 0 Mb ACH (k - DPX? 
(s) -1 ypts-l) yis-DT ts) -i y(s-1) - 
DOOD [C A ct X (3-111) 
通过 合并 式 (3-111) 的 最 后 两 项 ， 权 值 更 新 方程 简化 为 ; 
wy (k) = wk = 1) — KX OP wo (k= 1) + OF KK) 
= wk 一 1) + KOD (k) 一 EV WOK -1)] (3-112) 
= wk -D+ KODO Kv A 
等 式 (3-112) 是 网 络 第 * 层 第 ;个 线性 组 合 器 的 权 值 更 新 方程 。 更 新 和 线性 组 合 器 的 期 望 输出 
与 实际 输出 之 间 的 差异 成 比例 的 。 这 是 Hebb 类 型 的 所 有 学 习 算法 的 情况 ，RLS 仅 是 一 个 特殊 
例子 。RLS 算 法 的 关键 属性 是 对 于 网 络 中 每 个 神经 元 和 网 络 训练 的 每 一 步 的 学 习 率 动态 地 改 
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变 。 学 习 率 当 作 式 (3-112) 中 的 Kalman 增益 矩阵 的 一 个 项 来 计算 。 
基于 更 新 方程 (3-112)， 训 练 MLP NN 的 RLS 算 法 可 以 小 结 为 如 下 步骤 [40]: 
反 向 传播 算法 的 递归 最 小 二 乘 形式 


AL SSH ION EER HO 


SR 按照 3.3.2 节 讨论 的 任意 标准 最 初始 化 过 程 来 初始 化 网 络 权 值 。 

步骤 2 提交 一 个 输入 模式 ， 计 算 所 有 线性 组 合 器 的 响应 v 和 网 络 中 所 有 神经 元 输出 xu 。 

步骤 3 对 于 网 络 的 每 一 层 ， 按 照 下 面 的 式 子 计算 Kalman 增 益 您 阵 ， 并 更 新 协 方差 矩阵 估计 
AM (ky = (CO DT XS) 


ONLINE EE EPL ERSE 








SSMS REN RSE 





更 新 第 s 层 的 Kalman 增益 年 阵 
Or — A (k) 
K (= b + x8" (k) AV (k) 
根据 下 式 更 新 第 * 层 的 协 方差 矩阵 


[CO = BCP -DI -KOA (A) 
步骤 4 按照 下 式 计算 和 反 向 传播 输出 层 的 局 部 误差 
8; = day -xou DBV) 


m 
(s) (s+D, (s+!) (s) 
8c -(So" wit Jac”) 
{= 


其 中 8(z) = df(z)/dz， 而 有 z) 是 神经 元 激活 函数 。 
步骤 5 对 于 每 个 线性 组 合 器 ， 按 照 下 式 估计 期 望 输 入 ， 
BO = f(x + 416") 
其 中 广 '(z) 是 神经 元 激活 函数 的 反 函 数 。 
步骤 6 按照 以 下 式 子 更 新 网 络 每 层 的 权 值 
w (k) =w (k -1)+ KOO (k) - UO] 
步骤 7 如果 网 络 收敛 则 停止 ， 否 则 转 到 步骤 2。 口 


从 上 面 的 算法 小 结 看 ，RLS 算 法 很 明显 与 标准 反 向 传播 算法 比较 对 MLP NN 的 训练 涉及 增 
加 计算 。 然 而 ， 在 [40] 和 [41] 的 详细 分 析 说 明了 RLS 算 法 达到 收敛 需要 更 少 的 迭代 次 数 ， 当 和 
标准 反 向 传播 比较 时 ， 整 个 训练 时 间 减 少 一 个 数量 级 还 多 。RLS 算 法 已 经 证 明 对 初始 的 权 值 
选择 更 不 灵敏 ， 并 且 学 习 率 的 自 适 应 特性 使 算法 更 不 易 陷 人 局 部 最 小 值 。 在 算法 性 能 的 重大 
改进 能 够 由 [40] 中 描述 的 并 行 实现 来 取得 。 


3.4.3 具有 自 适应 激活 函数 斜 度 的 反 向 传播 


从 迄今 为 止 我 们 已 经 看 到 的 反 向 传播 的 权 值 更 新 方程 组 ， 我 们 观察 到 更 新 速率 与 非 线性 
激活 函数 的 导数 成 比例 。 如 以 前 讨论 的 那样 ， 在 MLP NN 中 一 个 神经 元 的 典型 激活 函数 具有 
一 个 钟 形 导 数 的 S 形 函数 ， 如 图 3-6 所 示 。 在 网 络 训练 期 间 ， 线 性 组 合 器 的 输出 可 能 落 入 激活 
函数 的 饱和 区 域内 。 在 该 区 域 的 激活 函数 的 导数 非常 小 ， 而 由 于 权 值 更 新 直接 依赖 导数 的 大 
小 ， 所 以 ， 学 习 速率 变 得 极端 地 慢 。 线 性 组 合 器 的 输出 移出 饱和 区 域 之 前 ， 可 能 需要 许多 次 
近代。 阻止 这 种 饱和 的 直接 方法 就 是 通过 降低 激活 函数 的 斜 度 来 增加 非 饱 和 部 分 的 大 小 。 然 
而 ， 降 低 斜 度 使 得 网 络 行为 更 像 一 个 线性 网 络 ， 类 际 上 减弱 了 多 层 网 络 的 优势 (由 于 任意 多 
的 具有 线性 激活 函数 的 层 被 单 层 所 代 赫 )。 因 此 ， 激 活 函 数 斜 度 有 一 个 最 优 值 ， 以 平衡 网 络 训 
练 速度 和 它 的 映射 能 力 。 对 任何 网 络 神经 元 该 值 不 必 相 同 。 由 于 MLP NN 结构 的 复杂 性 ， 在 


对 于 隐藏 层 
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训练 开始 以 前 决定 网 络 每 个 神经 元 的 激活 函数 的 最 佳 斜 度 是 不 可 能 的 。 所 以 ， 它 们 的 一 个 自 
适应 方式 的 估计 提供 一 个 可 行 的 替代 。 这 是 我 们 在 本 节 采 用 的 方法 。 


1 7 

0.8 
6 

0.6 
0.4 5 

0.2 

a = 

-0.2 = 3 
-0.4 2 

-0.6 
1 

一 0.8 
-1 0 

~1 -0.5 0 0.5 1 一 1 -0.5 0 0.5 1 
输入 输入 
a) b) 


图 3-6 a) 典型 的 MLP NN 激活 消 数 ，b) a) 中 激活 函数 的 导数 


斜 度 的 自 适 应 估计 过 程 使 用 与 用 于 导出 权 值 更 新 方程 组 一 样 的 最 优化 准则 来 导出 。 特 别 
地 ， 选 择 斜 度 使 得 性 能 准则 最 小 化 


1 5 s 1 < s 2 
E = 5 4a ~ xen M (d, = Xa) = 2 Dy (ae ~ xn) (3-1 13) 
=} 


其 中 s 指 网 络 中 层 数 并 且 d, ER” Ha! 5) BRR E q MERA E E (1 RR A HH LS 
输出 。 考 虑 如 下 表达 式 给 出 的 一 个 $ 形 激活 函数 
1-exp(-yv) 
1+ exp(-yv) 
其 中 * 是 非 线性 的 输入 〈 线 性 组 合 器 的 输出 ) ， 而 ?是 校正 的 倾斜 参数 ， 以 使 式 (3-113) 最 小 
化 。 考 虑 网 络 第 * 层 第 ;个 神经 元 的 非 线性 特性 ， 应 用 与 用 于 导出 标准 反 向 传播 的 权 值 更 新 方程 
组 的 一 样 的 方法 ， 得 到 


fQ.y)= (3-114) 





aE 
P+D =" -BS (3-115) 
ðY; 
使 用 链 式 法 则 ， 在 式 (3-115) 右边 的 第 二 项 能 够 重新 写成 ， 
2E, _ AE, ao ar gen dE Dos go AY) (3-116) 
ay Bul ax, Oy RP BY Lr) 


其 中 6. "是 第 * 层 第 ;个 神经 元 的 局 部 误差 , 人 (六 和/ 7) 分 别 表示 激活 函数 关于 "和 7 的 偏 导 
数 。 如 果 使 用 式 (3-114) 中 的 激活 函数 ， 我 们 有 


fur) = sll fy] (3-117) 


fany) = 了- foy] (3-118) 


通过 把 式 (3-116), K (3-117) 和 式 (3-118) RAR (3-115)， 用 于 激活 函数 斜 度 的 更 新 
方程 变 成 
yi k+ D= y) + po (3-119) 











通常 ， 添 加 一 个 动量 项 到 更 新 方程 (3-119) 来 提高 稳定 性 。 另 外 ， 为 了 避免 神经 元 网 络 
映射 的 可 能 线性 化 ， 限 制 斜 度 以 免 变 得 比 预先 给 定 值 Yi 更 小 。 具 有 自 适应 斜 度 的 整个 反 向 传 
播 算法 能 够 小 结 为 以 下 六 个 步骤 : 


自 适应 激活 函数 倾斜 的 反 向 传播 算法 


步骤 1 按照 3.3.2 节 讨论 的 标准 初始 化 过 程 初始 化 网 络 权 值 。 

步骤 2 从 训练 输出 对 的 集合 中 提交 输入 模式 并 且 计 算 网 络 响 应 。 

步骤 3 比较 网 络 实际 输出 和 期 望 的 网 络 响应 ， 并 且 用 下 式 计算 局 部 误差 
对 于 输出 层 ， 8 =(d,, ~ x aur’) 


对 于 隐藏 层 ，65 = ($ awg Jeet 


步骤 4 网 络 权 值 按照 下 式 更 新 
WE +1) = wih) + WOO 
步骤 5 按照 如 下 等 式 更 新 激活 函数 的 斜 度 
YO K+D=7 (k) Bo + ply? -y k- DI 
WR YORD) Yni BA YO KH Y pine 
步骤 6 如 果 网 络 收敛 则 停止 ， 否 则 回 到 步骤 2。 口 


比较 标准 反 向 传播 和 上 面 的 算法 ， 我 们 发 现 仅仅 在 第 5 步 不 同 ， 在 第 5 步 执行 斜 度 的 更 新 。 由 
于 局 部 误差 已 经 作为 一 个 权 值 更 新 方程 的 必要 部 分 被 计算 ， 斜 度 更 新 并 不 添加 多 大 的 计算 负担 。 

虽然 这 个 方法 作为 标准 反 向 传播 算法 的 改进 给 出 ， 结 合 其 他 的 反 向 传播 算法 形式 也 可 实 
现 倾斜 的 自 适应 。 另 外 ， 当 激活 函数 为 分 段 线性 或 量化 ， 在 [42, 43] 中 给 出 了 自 适应 倾斜 方法 
的 有 趣 形式 。 从 MLP NN 的 实际 硬件 实现 来 看 ， 分 段 线性 和 量化 的 激活 函数 是 极端 重要 的 。 


3.4.4 Levenberg-Marquardt 算法 





Levenberg-Marquardt 2 fil (44% (LMBP) 算法 代表 应 用 于 训练 MLP NN 问题 的 牛顿 方法 的 
一 个 简单 版 本 。 牛 顿 方法 是 明确 建立 的 具有 二 次 收敛 速度 的 数值 最 优化 技术 。 这 里 ， 我 们 仅 
仅 给 出 算法 。 PEAS- AEAEE TEARRE, 强烈 推荐 读者 阅读 该 节 。 

牛顿 最 优化 算法 小 多 

考虑 寻找 向 量 w E mB {hh HE BLEW)! 一 WARE RRE. RF 
顿 方 法 ， 完 成 这 个 最 小 化 任务 的 迭代 过 程 可 建立 如 下 : 

步骤 1 初始 化 向 量 w © RR*“! 的 分 量 为 一 些 随机 值 。 

步骤 2 按照 如 下 式 子 更 新 问 量 w: 





w(k +1) = w(k)- H;'g, (3-120) 
其 中 矩阵 H GR’ 表示 黑 塞 矩 阵 的 逆 。 黑 塞 矩 阵 如 下 : 

Ew) OEW) E(w) 

ðw? dw dw, dw, dWy 

PEW) Ew) — Ew) 

H= W ÔW, aw; OW0Wn 
ee (3-121) 

E(w) E(w) E(w) 
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在 点 w = wOADBET DE, Tal Ekg, EN "表示 能 量 函 数 的 梯度 ， 计 算 为 


_ [agowm) aE) 3E0D] 
ow, ow, OWy 








(3-122) 


在 点 w = w() 处 取 值 。 

牛顿 方法 的 一 个 明显 问题 是 计算 黑 塞 矩阵 的 逆 所 涉及 的 计算 需求 。 即 使 对 中 等 规模 的 神 
经 网 络 ， 算 法 的 复杂 性 也 限制 了 它 的 实际 应 用 。LMBP 算 法 提供 了 牛顿 方法 一 个 可 行 替代 ， 它 
具有 近似 相同 的 收敛 速度 和 显著 减少 的 复杂 度 。 为 了 应 用 LMBP 算 法 ， 训 练 MLP NN 的 问题 必 
须 用 一 个 非 线性 最 优化 问题 来 表示 。 

考虑 图 3-4 所 示 的 MLP NN。 神 经 网 络 训 练 的 任务 可 以 看 作 训练 集合 中 所 有 模式 的 期 望 与 
实际 网 络 输出 的 误差 最 小 的 一 组 网 络 权 值 。 如 果 模 式 数量 有 限 ， 能 量 函 数 可 以 写成 


1 Q 
DC RD VORE (3-123) 
q=] 


其 中 Q 是 总 的 训练 模式 总 数 ，w 表 示 网 络 中 包含 所 有 权 值 的 向 量 ，4d, 是 期 望 输出 ， xO) 是 第 q 
个 训练 模式 的 实际 网 络 输出 。 按 照 牛 顿 方法 ， 使 式 (3-123) 中 能 量 函 数 最 小 的 最 优 权 值 集合 
可 以 通过 应 用 下 式 找到 














w(k +1) = w(k)- Hy'g, (3-124) 
其 中 
H, = VEW) hywa (3-125) 
和 
= VEW) lyas (3-126) 
MEP =n,Q0, X (3-123) 可 以 改写 成 
1 P 
E(w)=— (d, -x2) => - 
>) > Py (3-127) 
其 中 
ep =4, = xO (3-128) 
在 式 (3-126) PAER ARR RETURA 
P 
ave? 
名 ” < ôe 
e P 
a pa P aw, 
g- SEW) 1 aye -|96 ĉe, „J'e 
30) 2\~aw, | |= °” (3-129) 
r, ðe 
P Pp 
0 e; ye aWy 
p=t 
OW y 


其 中 JE 中 是 雅 可 比 矩 阵 ， 定 义 如 下 
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de, ðe ðe, 
ðw, ðw, Wy 
ðe, ðe, ðe, 
J=| aw, aw, awy 
es (3-130) 
bep der .dep 
ðw, ôw, OWy 
下 一 步 需要 发 现 黑 塞 矩 阵 的 表达 式 。 黑 塞 扎 阵 中 的 上 /元 素 可 以 表示 为 
VEw) de, de ave, \ 
VE(w)], ,= = PP 4 e ——?_ - 
[V EW), > dw, ðw; +e, aw, dw, | (3-131) 


dw,dw, 44 


通过 使 用 式 (3-130) 中 雅 可 比 和 矩阵 的 表达 式 ， 黑 客 和 矩阵 可 以 表示 为 
ViE(w)=JJ+S (3-132) 
其 中 气 阵 $ Ee R*** 是 二 阶 导 数 和 矩阵 ， 给 出 为 


P 


S=Ye,V'e, (3-133) 


p=} 


“4S AER wR Ma, EESTE EAR), SERRE ATAU RIA 


H~J'J (3-134) 
fest, (3-129) 和 式 (3-134) 代入 式 (3-124) 给 出 的 牛顿 方法 的 表达 式 ， 得 到 
wk+D= wk -tT Te (3-135) 


其 中 下 标 k 表 明了 对 相应 矩阵 在 w = w(k) 处 取 值 。 
式 (3-135) 中 迭代 更 新 的 一 个 问题 是 需要 可 能 为 病态 或 甚至 奇异 矩阵 妃 = J 的 逆 。 该 问 
题 通过 对 式 (3-134) 的 修改 很 容易 解决 
H~J'J + pl (3-136) 
其 中 4 是 很 小 的 数 ，I E RYN RE. HER (3-136) RAR (3-135) ， 得 到 更 新 网 
络 权 值 的 Levenberg-Marquardt 算 法 [35] 
wk +1) = w(k)-( J, +u, Se (3-137) 
在 说 明神 经 网 络 环境 下 式 (3-137) 如 何 实现 之 前 ， 需 要 认识 到 它 表 示 从 最 速 下 降 方法 到 牛顿 
方法 的 过 渡 。 对 于 式 (3-137) 中 以 的 一 个 较 小 的 值 ， 它 趋向 于 式 (3-135) 给 出 的 近似 牛顿 算 
法 。 当 凡 值 增加 时 ， 式 (3-137) 中 方 括号 内 的 第 二 项 变 成 优势 ， 并 且 更 新 方程 可 以 写成 : 


wk +1) = wk) -I J, + uA Jie, 





= w(k)-[u,IF' J7 e, = wi) Ie (3-138) 
Moy, = 1/ 心 ， 使 用 式 (3-129), X (3-138) 能 重新 写成 
w(k + 1) = wk)— ag, (3-139) 
它 是 最 速 下 降 梯度 方法 。 
实现 LMBP 算 法 的 最 大 问题 是 雅 可 比 矩 阵 J(w) 的 计算 。 和 矩阵 的 每 一 项 有 如 下 形式 
de, 
Jip = (3-140) 


j 
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计算 式 (3-140) 中 导数 的 最 简单 计算 方法 是 使 用 近似 
1 (3-141) 


其 中 Ae 表示 由 于 权 值 Aw 的 小 扰动 引起 的 输出 误差 的 变化 。 读 方法 相对 直接 并 且 实现 简单 。 权 
值 的 扰动 保持 很 小 ， 至 少 在 幅度 上 比 当前 学 习 率 参数 败 小 一 个 数量 级 。 计 算 雅 可 比 和 矩阵 以 后 ， 
可 以 使 用 式 (3-137) 实现 权 值 更 新 。 
反 向 传播 算法 的 Levenberg- Marquardt 形 式 
SR 初始 化 网 络 权 值 为 小 的 随机 值 。 使 用 3.3.2 节 建议 的 初始 化 过 程 。 设 置 学 习 率 参数 。 
DR 提交 一 个 输入 模式 ， 计 算 网 络 输出 。 
步骤 3 使 用 式 (3-141) 计算 与 输入 /输出 对 相关 的 雅 可 比 矩 阵 的 元 素 。 


步骤 4 当 提 交 最 后 输入 /输出 对 后 ， 使 用 式 (3-137) 实现 权 值 更 新 。 
步骤 5 如 果 网 络 收敛 则 停止 ， 否 则 回 到 步骤 2。 口 


补充 评论 : 

1. 这 里 给 出 的 权 值 更 新 方法 是 LMBP 算 法 的 批量 形式 。 算 法 的 一 个 标量 形式 在 35] 中 。 

2. 在 式 (3-137) 中 学 习 率 参数 所 在 训练 期 间 可 以 动态 修改 。 在 网 络 训练 的 早期 阶段 它 应 
该 保持 相对 小 ， 算 法 接近 牛顿 方法 。 为 了 阻止 振荡 ， 并 且 为 了 实现 网 络 权 值 的 精细 调整 ， 在 
网 络 训练 的 后 期 阶段 增加 学 习 率 参数 ， 算 法 接近 最 速 下 降 梯 度 方法 。 

3. 在 更 新 方程 中 使 用 的 雅 可 比 和 矩阵 不 必 对 于 输入 /输出 训练 对 的 整个 集合 进行 计算 。 为 了 
减少 存储 需求 ， 在 提交 训练 模式 的 子 集 给 网 络 后 就 可 以 执行 更 新 。 


3.5 对 传 


对 传 网 络 由 Hecht-Nielsen[44-46] 开 发 ， 它 扮演 一 个 自 编程 的 最 优 查看 表 的 功能 ， 提 供 一 
个 输入 和 输出 训练 模式 之 间 的 双向 上 映射 。 当 网 络 训 练 速度 是 首要 考虑 的 时 候 ， 它 可 以 作为 一 
个 由 反 向 传播 训练 的 MLP NN 的 替代 来 使 用 。 通 常 对 传 网 络 比 MLP NN 收敛 得 更 快 。 然 而 ， 达 
到 期 望 精度 需要 的 神经 元 数量 通常 比 MLP NN 需要 的 大 得 多 。 所 以 ， 对 传 最 普通 的 用 途 是 用 
于 开发 神经 计算 系统 的 原型 阶段 。 在 使 用 对 传 开 发 一 个 神经 计算 系统 后 ， 该 网 络 用 MLP NN 
替代 。 在 本 节 中 将 介绍 对 传 网 络 的 两 种 形式 ， 仅 有 前 向 的 (forward-only) 对 传 和 全 面 的 
(full) 对 传 。 

仅 有 前 向 对 传神 经 网 络 

仅 有 前 向 对 传 网 络 的 结构 如 图 3-7 所 示 。 从 图 中 可 以 看 出 ， 网 络 由 一 个 输入 、 一 个 输出 和 
一 个 隐藏 层 构 成 。 有 两 组 权 值 ， 通 过 两 个 不 同 训 练 算法 来 修正 。 连 接 输 入 与 隐藏 层 的 权 值 通 
过 使 用 Kohonen 自 组 织 学 习 规 则 来 训练 ， 而 隐藏 层 与 输出 层 之 间 的 权 值 通过 使 用 Grossberg 学 
习 规 则 来 训练 。 

在 训练 过 程 期 间 ， 把 期 望 映 射 的 例子 提交 给 网 络 ， 也 就 是 提交 输入 向 量 x © 六 "“' 和 输出 向 
By E MR”*!。 在 Kohonen 层 和 Grossberg 层 中 的 权 值 各 自 单独 训练 。 首 先 ， 网 络 计算 输入 向 量 
ie: 该 距离 可 以 如 下 计算 


z; = dist(x,w,) =x- w, l, = Sae (3-142) 


计算 距离 后 ， 隐 藏 居中 的 神经 元 允许 竟 争 ， 并 且 它 们 的 输出 如 下 设置 
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Kohonen Grossberg J 
图 3-7 仅 有 前 向 对 传 网 络 结构 


z- ( ROR REY, Ez, <2 AIR ER (3-143) 


0 其 他 
换 句 话 说， 权 值 “最 接近 ”于 输入 模式 的 神经 元 获胜 ， 它 的 输出 设 为 1。 所 有 其 他 神经 元 输出 
为 0。 最 后 ， 连 接 获 胜 神经 元 的 权 值 按照 Kohonen 自 组 织 学 习 规则 更 新 
wk + 1) = [1 一 CCO] w(k) + alk) x (3-144) 
隐藏 层 的 其 他 处 理 单 元 不 调整 它们 的 权 值 。 学 习 率 ao 通 常 开始 于 一 个 相对 大 的 值 ， 比 如 ，c = 
0.9， 随 网 络 训练 过 程 逐 渐 减 少 。 在 Kohonen 层 的 权 值 根据 输入 向 量 的 统计 特性 分 布 。 因 而 ， 
训练 的 这 个 阶段 主要 执行 输入 向 量 空间 的 最 优 采 样 。 
对 传 网 络 输 出 层 权 值 按照 Grossberg 学 习 规 则 更 新 
wlk+ 1)= ulk) + Bk) [一 uk) + yz (3-145) 
其 中 8 表示 用 于 输出 层 的 学 习 率 参数 。 只 有 连接 隐藏 层 中 的 获胜 神经 元 与 输出 层 神经 元 之 间 的 
权 值 被 更 新 。 


训练 对 传 网 络 的 算法 


| nn 


步骤 1 在 聚 类 层 中 选择 神经 元 数量 为 N， 初始化 权 值 为 一 区 间 内 的 随机 值 ， 这 个 区 间 的 范围 为 输入 
向 量 分 量 的 方差 。 

步骤 2 RR-PRARACER PHAR ERA Ey ER”, 

步骤 3 按照 如 下 公式 计算 输入 向量 与 聚 类 单元 的 连接 权 值 之 间 的 距离 


1/2 


zj = de -wa j=1,2, 7, N 
步骤 4 按照 如 下 公式 计算 聚 类 单元 的 输出 
f WRIA RER ELHA ER 
-i 其 他 
步骤 5 按照 如 下 公式 更 新 Kohonen 层 权 值 
mi 类 + 1)=[l 一 alk) ] wk) + alk) x 
其 中 学 习 率 o 在 训练 期 间 逐 渐 减 少 。 一 个 可 能 是 按照 如 下 公式 逐渐 减少 


a(k) = cen 一 ‘| 
0 
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其 中 ko 是 适当 选择 的 时 间 常 数 。 
步骤 6 按照 如 下 公式 更 新 输出 层 权 值 
wk+ 1) = uj(k) + BQ) [uk + yz j=1,2,., my i=1,2, N 
其 中 2 是 获胜 的 聚 类 单元 。 
步骤 7 ”如果 网 络 收 你 则 停止 ， 和 否则 ， 回 到 步骤 2。 口 





例 3.3 考虑 设计 一 个 神经 网 络 在 区 间 [0, 4] 内 逼近 如 下 函数 的 问题 
1 
x+l 


为 了 完成 该 任务 ， 可 以 使 用 在 隐藏 层 有 20 个 神经 元 的 仅 有 前 向 的 对 传 网 络 。 在 网 络 训练 期 间 ， 
Kohonen 层 学 习 率 设置 为 ao = 0.95， 按 如 下 指数 函数 逐渐 降低 


alk) =a, exp{ - £) 





训练 网 络 50 个 回合 ， 近 似 结果 如 图 3-8 所 示 。 If 
全 对 传 0.9} 
仅 有 前 向 对 传 网 络 训练 后 提供 仅 一 个 方向 的 0.8[-% 
映射 ， 全 对 传 网 络 设计 成 学 习 双 向 映射。 通过 监 pE 0.7 
督 训 练 过 程 ， 网 络 自 适应 地 构建 一 个 查询 表 逼 近 06 
已 有 的 输入 /输出 训练 对 : x E R, ye RS @ 05 
间 的 映射 。 这 表示 仅 有 前 向 对 传 网 络 的 推广 。 在 ~ o4 
全 对 传 网 络 训练 后 ， 如 果 x 已 知 ， 可 以 用 来 重新 l 
构建 相应 的 ?#*# 向 量 ， 反 之 亦 然 。 图 3-9 所 示 全 对 伟 03 in 
网 络 的 结构 。 为 了 简单 起 见 ， 图 中 省 略 了 单独 的 020-95 Tis 2 25 3 35 4 
‘UA. 输入 
全 对 传 网 络 有 四 个 权 值 集合 。 连 接 x 和 y 输 入 图 3-8 利用 仅 有 前 向 的 对 传神 经 网 络 对 函数 
层 到 聚 类 层 的 权 值 使 用 Kohonen 自 组 织 学 习 规则 : y= 1/(x + DBI 


来 训练 ， 连 接 聚 类 层 到 两 个 输出 层 的 权 值 使 用 Grossberg 学 习 规 则 来 训练 。 在 算法 的 基本 形式 
中 ， 仅 允许 与 获胜 神经 元 相连 的 权 值 进行 学 习 。 


训练 全 对 传 网 络 的 算法 


步 又 1 选择 聚 类 层 神经 元 的 数量 WN， 初 始 化 网 络 权 值 。 初 始 化 网 络 权 值 为 随机 值 ， 当 : 
(a) 初始 化 WW 和 V 为 有 界 随 机 值 ， 其 边界 为 输入 x 的 分 量 的 最 大 值 与 最 小 值 。 
(b) 初始 化 D 和 7 为 有 界 随 机 值 ， 其 边界 为 输入 ?的 分 量 的 最 大 值 与 最 小 值 。 
步骤 2 按照 如 下 公式 计算 输入 对 x, y 与 聚 类 层 单元 之 问 的 距 网 


z= So Wik y+ do -u 
步骤 3 按照 如 下 公式 设置 聚 类 层 神 经 元 的 激活 函数 
1 如果; 为 对 任何 满足 z,<z 的 最 小 整数 
Zz, = 
i to 其 他 
步骤 4 按照 如 下 公式 更 新 Kohonen 层 的 权 值 
w(k + 1) =[1—@,(k)] wi) + a(k) x 






和 
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uk + 1) = [1—a,(k)] uk) +0,(4) y 
其 中 ae 和 o 是 学习 率 参 数 ， 通 常 随 训练 过 程 逐 渐 减 小 ， 并 且 ; 是 获胜 神经 元 的 指标 ， 即 ， 激 
活 函 数 置 为 1 的 那个 神经 元 。 
BRS 按照 如 下 公式 更 新 Grossberg 层 的 权 值 
uk + 1)= vlk) + BAL ~ uk) + xX] 2, f=, 2,0, 11,2, =, N 
和 
tk + 1) = ti(k) + BAK) [tA +y,} 2 j=1, 2, 71, m; i=1,2,°°,N 
步骤 6 如 果 网 络 以 收敛 则 停止 ， SM, BSH R2, 口 





x OQ wemr* 





图 3-9 全 对 传 网 络 结构 


3.6 径 向 基 函 数 神经 网 络 


在 实践 中 ， 神 经 网 络 监 督 训练 可 以 看 作 一 个 曲线 拟 合 过 程 。 提 交 训 练 对 给 网 络 ， 每 个 训 
练 对 由 一 个 输入 空间 的 向 量 和 一 个 期 望 的 网 络 响应 组 成 。 通 过 一 个 定义 好 的 学 习 算 靶 ， 网 络 
执行 它 的 权 值 调整 ， 使 相对 于 某 个 最 优化 准则 最 小 化 实际 与 期 望 响应 之 间 的 误差 。 一 旦 被 训 
练 后 ， 网 络 实现 输出 向 量 空间 中 的 插值 ， 这 称 为 泛 化 性 能 。 在 前 面 几 节 中 ， 我 们 看 见 反 向 传 
播 和 对 传 网 络 可 以 训练 来 实现 一 个 输入 和 输出 向 量 空 间 之 间 的 非 线 性 映射 。 在 这 一 节 中 ， 我 
们 给 出 另 一 个 网 络 ， 它 能 够 完成 同样 的 任务 。 这 就 是 径 向 基 图 数 网 络 (radial basis function 
neural network, RBF NN), 

RBF NN 的 结构 如 图 3-10 所 示 。 网 络 由 三 层 构成 : 一 个 输入 层 ， 单 个 非 线性 处 理 神 经 元 层 
和 一 个 输出 层 。RBF NN 的 输出 按 如 下 公式 计算 


N N 
y,= f(x)= Dre een) = Dhl I), i=1,2,.…,m (3-146) 


其 中 x E MR! 是 一 个 输入 向 量 ，gx( : ) 是 一 个 从 四 ' (所 有 正 实数 的 集合 ) BRAY HH. || :外 表示 
欧 几 里 得 范 数 ，wx 是 输出 层 权 值 ，N 是 隐藏 层 的 神经 元 数目 ， 并 且 ce E 名 ”是 输入 向 量 空间 


ary 


87 





102 $Y HAHAHRAREHPEDAEABKABH RAG TAM 





的 RBF 中 心 。 对 于 隐藏 层 的 每 个 神经 元 ， 计 算 它 相关 的 中 心 和 网 络 输入 之 间 的 欧 几 里 得 距离 。 
隐藏 层 神经 元 的 输出 是 距离 的 一 个 非 线性 函数 。 最 后 ， 计 算 网 络 输出 为 一 个 隐藏 层 输 出 的 加 
ALAN, (RIG ) 的 印 数 形式 已 经 给 出 ， 一 些 典型 选择 如 下 [26, 47]: 


1. @(@) =x 线性 函数 

2. pQ) = 大 立方 近似 

3. p(x) = x Inx 薄板 样 条 函数 
4. g(x) =exp(-x/o°) ”高 斯 函数 

5. g(x) = x? +07 多 二 次 函数 


1 va —, 
6. 10 诞 多 二 次 函数 


其 中 参数 o 控 制 RBF 的 “宽度 ”"， 并 且 通 常 称 为 扩展 参数 。 在 实际 应 用 中 ， 最 广泛 应 用 的 RBF 
是 高 斯 RBF。 





输入 层 隐藏 层 输出 层 
图 3-10 RBF NN 结构 


定义 中 心 ct 为 那些 假定 实现 输入 向 量 空间 的 适当 采样 的 点 。 它 们 通常 选择 为 输入 数据 的 一 
个 子 集 。 从 图 3-10 中 我 们 看 见 在 输出 层 的 神经 元 之 间 没 有 相互 作用 。 基 于 这 个 原因 ， 不 失 一 
般 性 ， 可 以 考虑 单 输出 的 RBF NN。 有 多 于 一 个 输出 的 网 络 可 以 当 作 几 个 单 输出 网 络 共享 一 个 
Fe ee AY 


3.6.1 训练 具有 固定 中 心 的 RBF NN 


由 式 (3-146) 可 知 ， 支 配 RBF NN 映射 属性 的 参数 有 两 组 : 输出 层 权 值 wx 和 径 向 基 函 数 
中 心 c。 RBF NN 训练 的 最 简单 形式 是 有 固定 的 中 心 。 上 基体 地 ， 它 们 通常 随机 地 选 作 输入 数据 
集合 的 子 集 。 该 方法 由 Broomhead and Lowe[48] 最 早 提议 。 方 法 的 内 在 原因 小 结 如 下 。 从 输 
入 数据 集中 随机 选择 足够 数目 的 中 心 将 依据 训练 数据 的 概率 密度 函数 进行 分 布 ， 因 而 提供 输 
入 空间 的 适当 采样 。 定 性 地 ， 该 方法 当 作 一 个 “灵敏 的 ”方法 [29]。 然 而 ， 很 难 确定 足够 的 中 
心 是 多 少 ， 才 能 达到 输入 空间 的 适当 取样 。 通 用 的 方法 就 是 选择 数目 相对 大 的 输入 向 量 为 中 
心 。 这 样 可 以 保证 有 适当 的 输入 空间 取样 。 在 网 络 训练 以 后 ， 一 些 中 心 可 能 根据 系统 化 的 方 
式 去 除 而 不 引起 网 络 映 射 性 能 的 显著 退化 。 - 

一 旦 中 心 选 定 ， 训 练 数据 集 的 输入 向 量 对 应 的 网 络 输出 可 以 计算 为 


Sq) = AGORO q=1,2,…,0 (3-147) 
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其 中 8 是 训练 对 的 总 数 。 以 向 量 和 矩阵 形式 整理 式 (3-147), A 


SD px(D,e) AxA) e) = xen) Jw 


92) _ | Ohe) Ax) + P) ey) "2 (3-148) 


y(Q)| |E), c) Px) c) 1 xl), ey) || Wy 

或 

$= Pw (3-149) 
其 中 pM 是 实际 网 络 输出 向 量 ，w E 3i "是 输出 层 权 值 向 量 ， 并 且 更 E RO 是 RBF 隐藏 
层 实 现 的 非 线 性 映射 的 矩阵 。 因 为 中 心 国定， 隐藏 层 实现 的 映射 也 固定 。 所 以 ， 网 络 训练 任 
务 是 决定 网 络 输 出 层 权 值 的 适当 取 值 ， 以 便 网 络 映射 性 能 在 某 种 意义 下 最 优 。 一 个 通常 使 用 
的 最 优 准则 是 实际 与 期 望 的 网 络 输 出 之 间 的 均 方 误差 。 换 句 话 说 ， 权 值 的 最 优 设置 是 最 小 化 
性 能 度量 


1 £ n 1 ~ ~ 
VOD) = dba -QF = zT ye - 9) (3-150) 
其 中 yy E Re*' 表 示 期 望 网 络 输出 向 量 。 把 式 (3-149) 代入 式 (3-150) 给 出 


J(w) = los - Pw) (y; - Pw) = T -2y;bw+w P Ow) (3-151) 


可 由 下 式 取得 最 小 化 性 能 度量 J(w) 
al (w) 





IW) =0 (3-152) 
或 
-b'y, +0 ow=0 (3-153) 
求解 w»， 我 们 有 
= (中 四 ) = 中 (3-154) 


ih Oe aRER ER OPH (BGA.2.77). 

MX (3-154) 我 们 看 到 在 固定 网 络 中 心情 况 下 ， 网 络 训练 问题 有 一 个 “封闭 形式 ”的 解 。 
这 实际 上 意味 着 和 反 向 传播 网 络 乃 至 对 传 网 络 比较 ，RBF NN 可 以 快速 训练 。 它 实现 非 线 性 多 
维 插值 ， 使 用 线性 最 小 二 乘 算法 来 训练 的 事实 使 RBF NN 对 于 各 类 信号 处 理 的 应 用 有 非常 大 的 
吸引 力 [29，47，49-52] 。 

需要 指出 另外 一 个 重点 。 依 赖 于 RBF NN 方程 组 (3-153) 的 大 小 ， 它 可 以 是 不 定 的 ， 也 
可 以 为 超 定 的 ， 或 可 以 有 唯一 的 解 。 如 果 中 心 的 数 且 大 于 或 等 于 训练 模式 的 数目 ， 期 望 与 实 
际 的 网 络 输出 的 误差 可 以 变 得 任意 小 。 事 实 上 ， 如 果 使 用 式 (3-154), 误差 将 总 是 等 于 0。 考 
虑 下 面 的 例子 。 

例 3.4 训练 RBF NN 在 区 间 [0, 4] 内 逼近 非 线 性 函数 

y = e “sin(3x) 

它 和 我 们 使 用 MLP NN 的 例 3.2 中 检验 的 任务 一 样 。 为 了 保证 合理 的 比较 ， 区 间 [0, 4] 取 样 为 间 
隔 为 0.2 的 21 个 点 ， 使 用 MATLAB 函 数 trainrbfe 训 练 网 络 ， 隐 藏 单元 数 是 21， 中 心 对 应 于 
输入 训练 向 量 。 因 此 ， 式 (3-153) 中 方程 组 有 唯一 解 。MATLAB 铺 数 trainrbfe 使 用 高 斯 
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RBF, 扩展 参数 oi 设 为 0.2。 在 训练 以 后 ， 画 出 网 络 对 训练 模式 的 响应 ， 如 图 3-11a 所 示 。 为 了 
测试 网 络 的 泛 化 能 力 ， 同 样 的 区 域 取样 为 401 个 点 ， 点 之 闻 的 闻 隔 为 0.01。 这 样 产 生 测试 数据 
集 。 网 络 对 测试 数据 集 的 响应 在 图 3-11b 中 给 出 。 


+ 


”训练 集 :“+” 
2 
a 


输出 :“ 一 ” 目 





输出 ， 测 试 集 :“ 


-040 05 115 225335 4 -040 05 1 1.5 2 25 335 4 
输入 


a) b) 
图 3-11 RBF 神经 网 络 响应 9) 对 于 训练 数据 ，b) 对 于 测试 数据 


例 3.4 的 结果 表示 使 用 RBF NN 的 数据 过 适应 的 情况 。 在 例 3.2 中 ， 过 适应 整个 毁坏 了 MLP 
NN 的 性 能 。 图 3-11b 表 明 ， 即 使 当 RBF NN 过 适应 训练 数据 时 ， 它 至 少 保持 可 接受 的 性 能 。 


设置 扩展 参数 
在 高 斯 RBF 情形 下 ， 扩 展 参数 o 通 常 按照 如 下 简单 启发 式 关 系 设置 [29] 
dnax 
o= VK (3-155) 


其 中 dx 是 选 树 的 中 心 之 间 最 大 的 欧 几 里 得 距离 ，K 是 中 心 的 数目 。 使 用 式 《3-155)， 网 络 隐 
藏 层 的 一 个 神经 元 的 RBF 可 以 写成 





K 
P(X, €,) = ex- z 


max 


lx —c, r) (3-156) 


具有 固定 中 心 的 RBF NN 的 训练 算法 


Tai BERSE KEBER ERGERE TERETE EARBA EBAR RRETA EA 


步骤 1 为 RBF 函数 选择 中 心 。 从 输入 向 量 集中 选择 中 心 。 选择 足够 数量 的 中 心 以 确保 输入 向 量 空 
间 的 适当 取样。 

步骤 2 按照 式 (3-155) 计算 RBF 函数 的 扩展 参数 ar。 

步骤 3 初始 化 网 络 输出 层 权 值 为 一 些小 的 随机 值 。 

步骤 4 ERR (3-149) 计算 神经 网 络 的 输出 。 

步骤 5 使 用 式 (3-154) 求解 网 络 权 值 。 


上 面 描述 的 算法 通常 称 为 批量 训练 算法 。 和 拖 阵 中 的 伪 逆 在 一 步 内 得 到 ， 这 意味 着 所 有 的 训 
练 数据 必须 事先 可 用 。 对 于 实时 处 理 的 情形 ， 计 算 伪 逆 可 以 用 一 种 迭代 的 数值 程序 ， 如 最 速 
下 降 、 弟 归 最 小 二 乘 、 共 圈 梯 度 、 牛 顿 方法 以 及 7.2 节 给 出 的 各 种 方法 。 


3.6.2 用 随机 梯度 方法 训练 RBF NN 

在 前 面 小 节 中 描述 了 用 于 训练 RBF NN 的 过 程 ， 其 中 网 络 可 调 参数 仅 为 输出 层 的 权 值 。 像 
我 们 看 见 的 一 样 ， 该 方法 导致 一 个 非常 简单 的 训练 算法 。 然 而 ， 为 了 实现 输入 的 恰当 取样 ， 
必须 从 输入 数据 集合 中 选择 较 大 数目 的 中 心 。 这 产生 相对 大 的 网 络 ， 甚 至 对 于 一 个 简单 问题 
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亦 是 如 此 。 

用 于 RBF NN 的 随机 梯度 方法 允许 调整 所 有 的 三 组 网 络 参数 ( 即 ， 权 值 、RBF 中 心 的 位 置 、 
RBF 的 宽度 ) 。 所 以 ， 在 隐藏 层 中 每 个 处 理 单 元 的 中 心 位 置 及 扩展 参数 与 输出 层 权 值 一 起 经 历 
监督 训练 过 程 。 开 发 基于 随机 梯度 的 监督 训练 算法 的 第 一 步 是 按 如 下 公式 定义 瞬时 误差 代价 
函数 


2 








J(n) = ; le(n) P= 1 区 一 $r ogenen] (3-157) 
如 果 RBF 选 择 高 斯 型 ， 式 (3-157) 变 成 
1 y læn) eT 
O r) (3-158) 
网 络 参数 更 新 方程 如 下 
won 1) = wen) ph, Fn) (3-159) 
w=w(n) 
e, (n+) = e, (n) = Ween) (3-160) 
k cp =e, in) 
O(n 41) = 04(0)= HJM) (3-161) 
k 6, =04 (2) 





训练 RBF NN 的 基于 随机 梯度 方法 


A a ESS MR LUT SEL SEHR SDI SO E  E  ERIR OSG EE BEEBE RIE SES 


步骤 1 选择 RBF 函数 中 心 ， 从 输入 向 量 集合 选择 中 心 。 
步骤 2 按照 式 (3-155) 计算 RBF 函数 的 扩展 参数 的 初 值 。 
步骤 3 初始 化 网 络 输出 层 权 值 为 一 些小 的 随机 值 。 
步骤 4 提交 一 个 输入 向 量 ， 并 且 按 下 式 计算 网 络 输出 


N 
Hn) = > w,g{x(n),¢,,0;} 
qj 





步骤 5 按照 下 式 更 新 网 络 参 数 
w(n + 1) = wn) +u,e(n) Y(n) 


c.(n +1) =0,(n) +p, Owe 


@{x(n), C, (n), OL }[x(n) 一 入 (n)] 


of (n) 
o,(ntl=0,(n) + Hy LOW) si e(n),€,(0),0;, } x(n) - c, (n)? 
on) 
其 中 
Wn) = [o{x(n),¢,,0,}, o{x(n),c,,07}, net, P{x(n), cn, 


e(n) = y(n) ~ ya (n) 


yADNE HS MAH, Hy BA EE YET KER, 
步骤 6 ”如果 网 络 已 经 收敛 则 停止 ， 否 则 ， 回 到 步骤 4。 口 


具有 更 新 隐藏 层 处 理 单元 的 中 心 位 置 及 扩展 参数 的 能 力 极 大 地 提高 RBF NN 的 性 能 。 对 于 
给 定 大 小 的 隐 臣 层 ， 与 随机 梯度 方法 一 起 训练 的 RBF NN 超过 一 个 固定 中 心 的 网 络 。 然 而 ， 得 
到 这 样 的 代价 增加 训练 算 靶 的 复杂 度 ， 这 增加 了 训练 网 络 需 要 的 时 间 。 观 察 上 面 的 更 新 方程 
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组 ， 我 们 注意 如 下 [29]: 
1. 瞬时 误差 代价 函数 J(n) 对 输出 层 的 权 值 是 凸 的。 然而， 对 于 隐藏 层 单元 的 RBF 的 中 心 位 
146] 置 与 扩展 参数 这 并 不 一 定 是 对 的 。 这 使 得 训练 算法 易于 陷 和 人 局 部 最 小 值 。 
2. 通常 ， 学 习 率 参数 心 、 上 和 /Hu 设置 成 不 同 值 。 
3. 学 习 规则 仍然 没有 反 向 传播 复杂 。 因 为 RBF NN 仅 有 一 组 可 校正 权 值 (在 输出 层 )。 误 
差 的 反 向 传播 并 不 需要 。 


3.6.3 正 交 最 小 二 乘 

我 们 已 经 看 见 RBF NN 设计 的 主要 挑战 是 中 心 的 选择 。 按 随机 方式 选择 ， 蕉 至 使 用 随机 梯 
度 算法 修改 ,通常 导致 一 个 相对 大 的 网 络 。 正 交 最 小 二 乘 (Orthogonal Least-Square, OLS) 
方法 提供 了 用 于 中 心 选择 的 系统 方法 ， 显 著 地 压缩 RBF NN 的 大 小 。 在 介绍 用 于 选择 RBF NN 
中 心 的 OLS 方 法 之 前 ， 回 顾 格 拉 姆 一 施 密 特 正 交 化 过 程 的 基础 。 

格拉 姆 - 施 密 特 正 交 化 

格拉 姆 一 施 密 特 正 交 化 [29, 50] 用 于 将 矩阵 M E R" "的 分 解 成 两 个 矩阵 的 积 的 一 个 过 程 ， 


按照 如 下 方式 进行 
M= WA (3-162) 
其 中 4 E gi"*" 是 一 个 上 三 角形 式 矩 阵 
Qiz Qim 
0 1 - a, 
A=| nn (3-163) 
0 0 1 
并 且 W E 中 "是 一 个 有 mm 个 相互 正 交 向 量 的 矩阵 ， 如 下 给 出 
W'W = diag(h,, ha, My) (3-164) 


矩阵 的 格拉 姆 一 施 密 特 正 交 化 是 建立 在 线性 向 量 空间 理论 的 基本 结果 基础 之 上 的 ， 即 正 交 分 解 
定理 。 该 定理 可 以 陈述 如 下 。 

定理 3.1 ”任何 向 量 m © R EPEY © R ' 上 可 以 唯一 地 分 解 成 相互 正 交 的 两 部 分 。 
一 部 分 平行 于 子 空间 Y ( 即 ， 位 于 其 中 )， 另 一 部 分 与 它 垂直 。 即 ， 

- m=mte (3-165) 

有 mey#theLlY, 分量 商 叫 作 m 在 子 空间 7 的 正 交 投影 。 

在 我 们 的 例子 中 ， 年 阵 压 的 列 可 以 看 作 # 维 向 量 空间 上 的 向 量 。 使 用 正 交 化 得 到 由 和 矩阵 M 

[3 的 列 张 成 的 子 空间 的 正 交 基 向 量 集合 


格拉 姆 - 施 密 特 正 交 化 算法 


“SR 设置 第 一 个 基 向 量 等 于 矩阵 的 第 一 列 
w =m, 
SRK 抽取 第 k 个 基 向 量 ， 以 便 它 与 前 面 i 1 个 向 量 正 交 
Qax=mw, 1l<igk—l 


k-t 


=m,- > CXW 
f 


重复 步骤 k 直 到 k = m。 口 
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在 每 一 步 k 中 ， 子 空间 U=[w, m .. w JAW RP R, Ham, FY" VEX 
ABRs). TA, W=Y, ERATARA Bm EWE KYLA PIR, 1<k<m, 

正 交 最 小 二 乘 回归 

OLS 方 法 起 源 于 线性 回归 模型 。RBF NN 实现 的 映射 可 以 看 作 如 下 形式 的 回归 模型 


yal) P(X, €),0,) PCX C0) > P(X), Cy, On) Iw, e 


UD PERA Peta ME COMET TE] (B60) 
Ya (Q) gxzocbOD) PlCXg C203) gocwOw)||ww co 
或 
y, =Dw te (3-167) 


其 中 ys E 2*! 是 期 望 的 网 络 输出 向 量 ，®B ERR LLAE— TARE ERE, AEREA 
Bọ E Re*! 是 一 个 回归 向 量 或 回归 量 (regressor) ，w E R ARIE, e E RW ERRAR 
与 实际 的 网 络 输出 之 间 的 误差 向 量 。 

RBF NN 的 中 心 从 输入 模式 集合 中 选择 。 正 如 在 式 (3-166) 中 看 到 ， 总 共有 Q 个 候选 。 使 
用 所 有 的 Q 个 输入 模式 作为 中 心 将 产生 一 个 无 误差 映射 的 网 络 。 然 而 ， 在 大 多 数 情况 下 ， 使 用 
来 自 输入 向 量 空间 的 所 有 @ 个 候选 的 网 络 是 非常 大 的 。OLS 回 归 的 任务 是 执行 N < 8 个 中 心 的 
系统 选择 ， 使 得 在 最 小 降低 网 络 性 能 情况 下 显著 地 削减 网 络 的 大 小 。 

Mit (3-166) 我 们 看 见 ，RBF NN 的 中 心 与 回归 年 阵 @ 的 回归 量 之 间 一 一 对 应 。 在 OLS 回 
归 的 每 一 步 ， 使 期 望 输出 的 方差 增加 最 大 的 方式 来 选择 一 个 新 的 中 心 。 假 设 我 们 已 选择 N <Q 
个 中 心 。 最 小 二 乘 得 到 的 权 值 解 为 

w= 四 (3-168) 
$ = OW = [Q ppn Iw (3-169) 
其 中 3 了 表示 yy, 在 回归 和 矩阵 的 列 和 所 扩张 成 的 向 量 空间 内 的 那 部 分 。 
通过 使 用 格拉 姆 ~ 施 密 特 正 交 方式 ， 回 归 算 阵 能 分 解 为 


1 di An U Aw 

0 1 Ay, 7° Ann 
D= BA = [Bob aan 5 (3-170) 

0 0 0 1 
其 中 4 ERY — PE RTE AL = PRE, BOE O° LA IE 30 FI PERS, E4 
B'B = H = diag(h,, ho, =+, Ay) (3-171) 

REH E RY “是 对 角 阵 ， 其 元 素 久 由 下 面 给 出 

h, = b7 b, = Xo (3-172) 


正 交 基 向 量 集 沁 所 扩张 成 的 向 量 空间 与 回归 矩阵 中 的 列 扩张 成 的 向 量 空间 相同 。 把 式 (3-170) 
代入 式 (3-167) ， 我 们 得 到 
y,=BAw+e=Bgte (3-173) 
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其 中 g = Aw, TEX (3-173) 中 ， 期 望 输出 向 量 yv 表 示 成 矩阵 如 的 相互 正 交 列 的 线性 组 合 。 坐 
标 向 量 g 的 最 小 二 乘 解 为 


ê =(B"BY'B' y, = B*y, = H’'B' y, (3-174) 
向 量 8 的 第 i 个 坐标 是 
b; y, 
= ied 3-175 
8; bb ( ) 


并 且 ， 像 我 们 期 望 的 那样 ， 它 是 向 量 yy 在 列 b; 方 向 的 规范 化 投影 。 因 为 格拉 姆 - 施 密 特 正 交 化 
保证 式 (3-173) 中 的 逼近 误差 与 B8g 之 间 的 正 交 ， 我 们 有 


N 
yi 3, = 2 B' Bg+e'e=g' Hgr+e'e= ans +e7e (3-176) 


给 出 式 (3-176) 的 物理 解释 是 相对 容易 的 。 项 yy 表示 期 望 输出 向 量 的 总 能 量 。 项 了 hg 


i= 


表示 回归 所 解释 的 能 量 部 分 ， 而 ere 是 回归 误差 能 量 。 式 (3-176) .右边 总 和 中 的 每 一 项 表示 由 
于 包含 第 ;个 回归 向 量 能 量 的 增长 。 由 于 存在 回归 向 量 g 的 分 量 与 RBF 中 心 c 之 间 的 一 一 对 应 ， 
在 求 和 中 的 每 一 项 反映 每 个 RBF 中 心 的 贡献 。 可 以 定义 由 于 包含 第 p 个 RBF 中 心 的 误差 缩减 率 
(err) 为 

h,gp 


[err], = yy (3-177) 


式 (3-177) 中 的 误差 缩减 率 为 前 向 回归 方式 的 RBF 中 心 选择 提供 一 个 简单 和 有 效 的 标准 。 在 
前 向 回归 的 每 一 步 中 ， 选 择 一 个 RBF 中 心 使 误差 缩减 率 最 大 。 传 统 的 格拉 姆 - 施 密 特 正 交 化 过 
程 可 以 合并 到 前 向 回归 设计 ， 整 个 过 程 可 以 小 结 为 如 下 算法 。 


训练 RBF 网 络 的 正 交 最 小 二 乘 算 法 





”步骤 1 k=1. 对 于 1 = T OR x a 


b = 4 
计算 第 ;个 中 心 的 误差 缩减 率 为 
l byy 
寻找 
[err]; = max([err],, 1<i<Q} 

选择 

b= 
并 且 中 心 =e, 


步骤 k k>2, HFISI<O,i4i,, 141), 1 Fi, HE 


» bg 
(i) t . 
ax -pp 1<j<k-1 
> k . 
bb- Sab, 
人 


计算 
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ferr],” - yey 
BPDP Yadu 
寻找 
[err]: = max{[err],,1<i<Q, i*i, i ži, ,i zi 1} 
选择 
b, =b 
HEP Oe, =e, , 


步骤 k+1 重复 步骤 k， 当 


~ Peem, <p 
在 步骤 Ni 停止 回归 ， 其 中 0< p < 1 是 选择 的 容许 值 。 口 


上 面 过 程 的 几何 学 解释 可 以 陈述 如 下 。 在 第 k 步 ， 由 选择 的 回归 量 扩张 成 的 空间 维 数 通 过 
引入 一 个 另外 的 基 向 量 从 k 一 1 增加 到 k。. 最 新 添加 的 向 量 最 大 化 期 望 网 络 输 出 的 能 量 ( 即 ， 最 
大 化 误差 缩减 率 ) 。 在 回归 中 包括 的 每 个 向 量 对 应 于 输入 数据 点 集合 中 的 一 个 中 心 。 当 回归 已 
经 包含 足够 部 分 的 期 望 网 络 输 出 的 能 量 时 ， 新 向 量 的 增加 (和 新 中 心 的 选择 ) 停止 。 因 而 ， 


OLS 方 法 产生 一 个 相对 小 的 网 络 。 


容许 参数 p 对 于 平衡 网 络 的 精度 和 复杂 度 是 很 重要 的 。 如 果 p 设 置 得 太 高 ( 即 ， 靠 近 1)， 结 
果 网 络 将 以 高 精度 逼近 映射 , 但 它 导致 很 大 数目 的 中 心 。 而 且 , 得 到 的 精度 很 可 能 导致 过 拟 合 。 
另 一 方面 ,设置 p 很 小 将 导致 网 络 的 相对 差 的 建 模 性 质 。 但 是 ， 网 络 规模 将 极 大 缩减 。 设 置 p 的 
合理 方法 是 P=1- o /ao ， 其 中 o 是 度量 噪声 功率 的 菜 种 估计 ，04 是 目标 信号 的 总 功率 。 

本 节 介 绍 的 OLS 算 法 形式 应 用 于 有 单一 输出 的 RBF NN。 多 输出 网 络 的 扩展 是 相对 直接 的 。 

例 3.5 考虑 设计 一 个 RBF NN 逼近 映射 :=f (x, y) 的 任务 。 


z = cos(3x) sin(2y) 


ZEKA: 一 1<x<1 并 且 一 1<y<1。 
为 了 完成 这 个 任务 ， 使 用 一 个 在 定义 的 输 
入 空间 中 分 布 的 121 个 中 心 的 RBF NN, 如 
图 3-12 中 用 + 号 表示 。 使 用 扩展 参数 设置 
为 0.3 的 高 其 RBF 函数 ， 训 练 网 络 实现 所 有 
121 个 中 心 的 精确 上 映射。 利用 OLS 算 法 执 
行 具 有 Pp = 0.99 期 望 精度 的 网 络 规模 缩减 。 
网 络 保留 28 个 中 心 ， 在 图 3-12 中 用 “0o” 
表示 。 由 于 RBF NN 映射 的 性 能 的 最 小 限 
度 的 降低 ， 网 络 的 规模 已 经 缩减 了 
1—28/121~77%。 


习题 

3.1 考虑 3.2 节 中 描述 的 联想 记忆 网 络 。 
通常 ， 关 键 向 量 和 记忆 向 量 的 维 数 
并 不 一 定 相 同 。 考 虑 下 面 的 输入 关 
键 向 量 


+ 初始 RBF 中 心 
0 保留 的 RBF 中 心 





-1 -0.5 0 05 1 


图 3-12 用 二 设计 在 ~1<x<1 和 一 1<y<1 区 域内 的 
映射 z = cos(3x) sin(2y) 的 RBF 中 心 。 应 用 OLS 
算法 后 ， 缩 减 网 络 仅 保留 28 个 中 心 
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3.2 





x, =[1000]’, x, =[0100]’,x,=[0001) 
输出 联想 向 量 

y, =(2-23)) y=[l1-2] y,=[-242]' 
(a) (FSP CI) 记忆 矩阵 M. 
(b) 得 到 的 记忆 联想 完全 吗 ? 可 以 通过 使 用 每 个 关键 模式 为 网 络 输入 来 决定 ， 也 就 是 说 ， 

J, = Mx, 
并 且 把 估计 J, 与 记忆 向 量 进行 比较 。 
在 某 些 情况 下 ， 网 络 的 输入 模式 可 以 变 得 扭曲 或 模糊 (masked)。 例 如 在 例 3.1 中 ， 
式 (3-15) 给 出 的 第 一 个 关键 向 量 由 于 某 些 原因 可 能 有 第 一 个 元 素 为 零 输出 ， 导 致 初始 
关键 向 量 xz 的 一 个 模糊 版 本 zw， 即 ， 
xu= [0 0.7778 0.5329]7 
使 用 式 (3-19) 的 记忆 矩阵 计算 x 的 记忆 响应 。 然 后 计算 该 响应 与 式 (3-15) 中 原始 的 
关键 向 量 之 间 的 欧 几 里 得 距离 。 你 得 出 什么 结论 呢 ? 当 式 (3-24) 中 的 第 一 个 关键 向 量 
的 第 一 个 元 素 有 零 输 出 时 执行 同样 的 分 析 ， 也 就 是 说 ， 模 糊 向 量 是 
Xin = [0 一 0.9779 —0.1629]" 
而 现在 使 用 式 (3-28) 的 记忆 和 矩阵。 从 该 结果 中 得 到 什么 结论 呢 ? 此 外 ， 把 这 些 结果 同 
该 问题 第 一 部 分 的 那些 进行 比较 ， 如 果 有 ， 可 以 得 到 什么 结论 ? 
再 次 考虑 问题 3.1， 使 用 式 (3-37) 的 误差 修正 递归 算法 计算 记忆 乍 阵 ， 写 一 个 MATLAB 
函数 实现 递归 算法 ， 在 自 变量 列表 中 包含 学 习 率 参数 4， 和 迭代 总 次 数 W， 和 一 个 容许 值 
tol， 它 定义 什么 时 候 达到 收敛 。 具 体 地 ， 当 下 列 不 等 式 成 立时 你 的 程序 里 的 “停止 标准 ” 
数学 上 应 该 满足 
IY- MX Il, <tol 


pli ||, 是 矩阵 了 - MX 的 最 大 奇异 值 (参见 A.2.13 节 )，Y 包 含 所 有 存储 模式 作为 列 向 
量 ，X 包 含 所 有 关键 模式 作为 列 向 量 ， 政 是 一 个 起 形 记忆 和 矩阵。MATLAB 函 数 作为 一 个 
“mł” (m-file) 以 如 下 形式 开始 
function M = corrmm(X,Y,mu,N,tol) 
把 你 的 结果 与 问题 3.1 得 到 的 结果 相 比较 。 用 不 同 的 学 习 率 参数 4 和 容许 值 tol 来 试验 。tol 
的 合理 值 是 10 一。 
异 联想 记忆 神经 网 络 可 以 用 来 检测 噪声 存在 下 的 已 知 序列 。 作 为 说 明 ， 设 计 一 个 异 联想 
网 络 存储 下 面 的 向 量 对 : 
xQ)=[111111117 y(1)=[1 -17 
x(2)={1 -1-11 1 -1-117 y(2)=[{l 17 
xB)=[} -11 -1-11 -117 y(3)=[-1 ij’ 
使 用 图 3-13 中 的 结构 和 式 (3-7) 的 学 习 规则 。 
(a) 当 输 入 数据 被 零 均 值 高 斯 噪声 损坏 时 ， 测 试 网 络 的 性 能 。 用 不 同 的 噪声 功率 进行 实验 。 
(b) 存储 一 个 附加 联想 向 量 对 ， 定 义 如 下 
x(4)=[~111 -111117 y4=[-1-1)" 
当 输 入 数据 被 零 均值 且 标 准 偏差 为 0.3 的 白色 噪声 损坏 时 ， 测 试 网 络 性 能 。 解 释 对 于 部 分 
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(a) 的 性 能 退化 。 





一 
记忆 矩阵 MeeR? 
图 3-13 问题 3.4 的 异 联想 记忆 神经 网 络 


3.5 使 用 反 向 传播 训练 的 MLP NN 的 最 普通 应 用 之 一 是 非 线 性 函数 映射 的 逼近 。 写 一 个 计算 ”加 
机 程序 ， 并 且 设计 一 个 带 有 一 个 隐藏 良 的 MLP NN， 由 反 向 传播 训练 来 实现 如 下 映射 ; 


1. faye xE(0.1, 1) 
x 


2.fx,y) =x +y x E(-1, DHHy E 1,1) 
3.f(x, y) =sin(nx) cos(nx) x E(— 2, 2)# Ay €(—2, 2) 
4, fap% E x &(—2, 2), y E(—2, 2), z E(-2, 2) 
对 于 上 面 的 每 个 例子 ， 执 行 如 下 操作 : 
(a) 产生 三 个 输入 模式 的 独立 集合 : 
训练 集合 : 200 个 模式 
测试 集合 : 100 个 模式 
检验 集合 : 50 个 模式 
对 于 每 个 集合 ， 使 用 被 逼 进 国 数 的 解析 表达 式 来 产生 目标 值 。 
(b) 在 网 络 训练 过 程 中 ， 使 用 训练 数据 集合 修改 权 值 。 在 每 次 训练 回合 结束 时 利用 测试 
数据 集合 监测 网 络 的 泛 化 能 力 并 阻止 过 适应 。 最 后 ， 使 用 检验 集合 验证 网 络 训 练 后 
的 全 面 性 能 。 
(c) 对 隐藏 层 不 同 数量 的 神经 元 进行 试验 。 
(d) 比较 当权 值 初始 化 为 小 的 随机 数 和 Nguyen-Widrow 初 始 化 过 程 时 网 络 的 收敛 速度 ( 参 
3.3.27). 
3.6“ 写 一 个 计算 机 程序 实现 带 有 动量 更 新 的 反 向 传播 学 习 算法 。 使 用 你 的 程序 训练 一 个 在 隐 
茂 层 有 10 个 神经 元 的 MLP NN 来 实现 非 线 性 映射 ， 该 映射 定义 如 下 : 
+1 Ëx <I 
-1 A x4x2 >1 


jaiz! 


tow) -| 


其 中 一 2 < x <2 和 一 2 < x, <2 
(a) 作为 训练 集合 使 用 441 个 数据 点 ， 定 义 为 : 
X=(xX, X)) 


其 中 = 一 2+i. 0.2 i=0,1,…,20 
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xj=-2+j-0.2 j=0,1,=,20 
(b) 使 用 以 下 定义 的 遗忘 因子 的 值 试验 : 
a E (0, 0.2, 0.4, 0.6, 0.8, 0.9, 0.99} 
对 于 遗忘 因子 的 每 个 值 ， 训 练 网 络 50 次 ， 并 记录 需要 用 于 网 络 收敛 的 回合 数 的 平均 
值 。 实 现 非 线性 映射 具有 如 下 设 定 的 精度 


] 如 如 
Fal Dy dy fin 4) fT SO. 


初始 化 权 值 为 小 的 随机 数 。 
(c) 使 用 Nguyen-Widrow 初 始 化 程序 重复 试验 (参考 3.3.2 节 )。 
D 3.7 反 向 传播 训练 的 MLP NN 可 以 成 功 应 用 到 无 记忆 的 通信 频道 均衡 问题 。 考 虑 图 3-14a 描 绘 
的 情形 。 频 道 引 入 的 非 线 性 失真 可 能 导致 信号 传输 质量 的 退化 。 如 图 3-14b 所 示 ， 可 以 使 
用 MLP NN 作 为 消除 非 线 性 的 自 适 应 滤波 器 。 假 定 通信 频道 的 非 线性 输入 /输出 关系 可 以 





近似 如 下 : 
sD) 0 ats val) 
(nT) = Ax(nT)+ Bx2(nT) 
a) 
s(n) 非 线性 通信 频 on) 
Q a- 


tii ------------------ 


s(nT) 一 训练 序列 
b) 


图 3-14 使 用 MLP NN 使 非 线 性 频道 均衡 
y(nT) = Ax(nT) + Bx?(nT) 
其 中 A = 1,B = 0.2。 
(a) 设计 并 训练 具有 1 个 输入 ，7 个 隐藏 神经 元 和 1 个 输出 神经 元 的 MLP NN 来 实现 通信 频 
道 的 均衡 。 设 置 7 = 1， 使 用 如 下 信号 作为 训练 序列 
s(nT) = s(n) = 2sin( =) n=1,2-- 
(b) 使 用 如 下 测试 信号 测试 均衡 器 的 性 能 
s,(nT) = 5,(n) = 0.8sin( =) + 0.25 cos( = 并 且 
155 ssa(nT) = ss(n) 是 一 个 满足 零 均 值 和 单位 方差 的 正 态 分 布 的 随机 数 序 列 。 





3.8 


3.9 
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(c) 假定 频道 输入 /输出 关系 近似 如 下 ， 重 复试 验 ， 
y(nT) = Ax(nT) + Bx (nT) + Cx (nT) 
其 中 4 = 1, B =0.3, C = 一 0.2。 对 MLP NN 隐 藏 层 神经 元 的 不 同 数目 进行 试验 。 


多 层 感知 器 神经 网 络 可 以 用 来 实现 数据 有 损 压 缩 。 考 虑 图 3-15 所 示 的 神经 网 络 结构 。 该 AD 


网 络 包含 两 层 : 一 个 隐藏 层 和 一 个 输出 县。 隐藏 层 神经 元 的 数目 比 输入 向 量 的 维 数 小 ， 
并 且 它 实现 由 输入 数据 压缩 到 一 个 较 低 维 数 向 量 空间 。 用 作 输 入 模式 的 向 量 作 为 目标 模 
式 。 所 以 ， 训 练 网 络 输出 层 从 低 维 数 表示 中 重 构 输入 数据 。 

输入 向 量 重 构 向 量 





xen”! yer”! eeER™™! 
图 3-15 使 用 MLP NN 压 缩 数据 


网 络 训练 以 后 ， 存 储 隐藏 层 的 输出 代替 输入 数据 以 实现 压缩 。 并 且 ， 为 了 重新 构造 数据 ， 
输出 层 权 值 也 需要 存储 。 让 亚 ,(:) MPO) 分 别 是 在 隐藏 层 和 输出 层 的 神经 元 实现 的 非 
线性 映射 。 在 网 络 训练 以 后 ， 压 缩 步骤 完成 如 下 
y= Y (Wx) 
原始 信号 的 重 构 实现 如 下 | 
x = Y, (Vy) 
写 一 个 使 用 由 反 向 传播 训练 的 MLP NN 来 实现 图 像 压 缩 的 计算 机 程序 。 为 了 产生 输入 / 目 
标 向 量 x， 把 图 像 分 割 成 8 x 8 像素 块 ， 重 新 排列 每 块 的 元 素 到 一 个 64 维 向 量 中 。 对 隐藏 
层 神 经 元 的 不 同 数目 进行 试验 。 
伪 随 机 序列 有 时 称 为 伪 噪 声 (PN) 序列 ， 因 为 它们 有 类 似 噪 声 的 性 质 ， 广 泛 用 在 通信 系 
统 中 ， 例 如 ， 在 扩 频 系统 中 。 这 些 二 进 制 序列 拥有 许多 有 趣 的 性 质 ， 且 可 以 使 用 一 个 线 
性 移 位 寄存 器 (LSR) 产生 。 使 用 长 度 n = 5 的 LSR 〈 例 如 图 3-16) 可 以 产生 有 六 个 不 同 
最 大 长 度 的 PN 序列 。 通 常 ， 一 个 最 大 长 度 序列 长 度 为 N = 2 一 1， 其 中 2 一 1 个 为 0， 其 
余 位 是 1。 如 果 用 于 产生 序列 LSR 上 的 抽 头 位 置 与 本 原 多 项 式 (primitive polynomial) 相 
关 ， 则 PN 序列 将 是 最 大 长 度 。 六 个 本 原 多 项 式 是 : 
g(yarex tl gaAX) = +X + 4x? tl 
g(x) =X + x 41 g(x) = + x+ xl 
gatt txl ga ata tal 


六 个 本 原 多 项 式 的 向 量 表 示 如 下 
g& > [01001] g4 > [11101] 
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g > [00101] g,> [11011] 
g&—[01111) g> [10111] 


Cell 1 Cell 2 Cell 3 Cell 4 Cell 5 


伪 随 机 序列 





os: 移动 寄存 器 初始 条 件 (不 能 全 为 零 ) 
图 3-16 配置 线性 移 位 寄存 器 以 利用 本 原 多 项 式 g8i(Co = 好 + 和 +1 产 生 最 大 长 度 的 擅 随 机 序列 


图 3-17 显 示 一 个 MATLAB 函 数 1prs ， 对 给 定 的 本 原 多 项 式 系数 向 量 和 一 个 初始 条 件 向 量 
将 产生 一 个 最 大 长 度 的 伪 随 机 序列 。 该 初始 条 件 向 量 可 以 是 1 和 0 组 成 的 但 不 全 是 0 的 任何 
恰当 长 度 的 序列 (典型 地 ， 所 有 值 选择 为 1)。 


function z=lprs(n,ppc,b) 
output binary sequence 
number of tubes in shift register 
(or length of shift register) 
primitive polynomial coefficients 
(n-dimensional row vector) 
initialization vector 
(n-dimensional row vector) 
M=zeros(n,n); 
M(:,1)=ppe'; 
for isi:n-1 
M(i,it1)=#1; 
end 
z(1)=b(1); 
for k=1:24n-2 
b=b*M; 
for i=1l:n 
if b(i)/2 == £fix(b(i)/2) 
b(i)=0; 
else 
b(i)=t; 
end 
end 
z(k+1)=b(1); 
end 


图 3-17 FEA REACHES REVO RL EUR MATLAB ER, ZFA E — SERSA AA 
量 和 一 个 初始 化 条 件 向 量 


(a) 生成 6 PN 序列 (长度 : N =2 一 1 -=31)， 使 用 上 面 给 定 的 六 个 本 原 多 项 式 的 向 量 
表达 式 和 图 3-17 的 MATLAB 函 数 。 

(b) 使 用 部 分 (a) 中 的 六 个 向 量 作为 前 馈 多 层 感 知 器 的 训练 输入 ， 令 目标 向 量 为 本 原 多 
项 式 系数 的 相关 向 量 表 示 。 使 用 MATLAB 神 经 网 络 工具 箱 中 的 trainbP。 一 个 隐藏 
层 足 够 实现 该 映射 。 用 隐藏 层 中 不 同 数量 的 神经 元 和 激 锋 函数 试验 。 当 网 络 训练 后 ， 
提交 六 个 输入 并 观察 输出 。 神 经 网 络 是 否 能 正确 分 类 输入 ? 

(c) 添加 一 个 随机 噪声 到 用 于 训练 网 络 的 六 个 输入 向 量 ， 也 就 是 ， 随 机 “ 跳 转 ”向 量 中 
的 一 些 位 。 使 用 这 些 作 为 在 本 问题 部 分 (b) 中 你 训练 的 网 络 的 输入 。 观 察 网 络 的 误 
差 修 正 能 力 。 输 入 向 量 如 何 被 噪声 损坏 的 例子 显示 在 下 面 (图 3-18) MATLAB re Br 

errors 中 。 用 不 同位 误差 率 (BER) 和 隐藏 层 不 同 数 目的 神经 元 评价 网 络 的 误 
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差 修正 能 力 。 在 Ham et al.[53] 写 的 论文 中 ， 使 用 两 个 无 监督 神经 网 络 分 类 人 擅 随 机 
序列 。 





function ZC=errors (Z, BER) 
% Z: matrix containing input 
% patterns in columns 
% BER: bit-error-rate given in a percentage, 
% for example, BER=30 means tnat on the 
% average 30% of the bits will be 
% ‘‘toggled’' 
% ZC: Corrupted output matrix 
[nr,ne]=size(Z); 
RN=rand(size(Z)); 
ZC=Z; 
T=1-BER/100; 
for i=l:nr 
for j=l:ne 
if RN(i, j)>=T 
if zC(i, j)==1 


ZC(i, 3)=0; 
else 
2c(i, j)=+1; 
end 
end 
end 
end 





图 3-18 产生 位 误差 的 MATLAB 国 数 errors 
(d) 对 生成 PN 序列 的 不 同 初始 条 件 进行 试验 。 记 住 序列 是 周期 的 ， 也 就 是 说 ， 对 每 N = 2" 一 1 
个 位 ， 它 们 将 重复 二 值 模式 。 试 对 六 个 不 同 最 大 长 度 序列 的 每 一 个 ， 尝 试 不 同 的 初 
始 条 件 ， 且 用 导出 的 模式 训练 网 络 。 评 论 结果 。 


3.10 ”考虑 圆周 上 的 点 相对 于 直角 坐标 系 四 个 象限 的 分 类 问题 ， 该 圆 定义 为 : y 
r+yet 
换 句 话说 ， 


1 #x>0Hy>0 
2 #x<0Hy>0 
3 车 zx<0 且 y<0 
4 #x>0Hy<0 


Fiz =(x, y) 分 类 为 





(a) 使 用 在 隐藏 层 含 有 36 个 神经 元 的 仅 有 前 向 对 传 的 神经 网 络 来 完成 分 类 。 
(b) 3.5 节 中 表明 如 何 使 用 欧 几 里 得 距离 计算 对 传 的 Kohonen 层 的 距离 。 使 用 距离 的 点 积 
度量 重复 上 面 陈述 的 分 类 问题 ， 距 离 的 点 积 度量 为 
dist(z,w )=1 a 
Saa Je +y fw tw, 
(c) 使 用 欧 几 里 得 距离 和 距离 的 点 积 度量 测试 对 于 来 自如 下 集合 的 输入 网 络 的 分 类 性 能 
{z=(x, 7)): +y <1} 
解释 结果 的 任何 差异 。 
3.11 使 用 式 (3-158) ~3% (3-161) 导出 用 于 训练 RBF 神经 网 络 的 随机 梯度 方法 的 学 习 规则 。 
3.12 设计 一 个 RBF NNA a PE ABR : a 


+1 若 x, +x; <1 
-1 # xptxp >1 


floun)={ 
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区 域 为 一 2 <x, <2, 一 2 <x, <2 
作为 一 个 训练 集合 ， 使 用 如 下 定义 的 441 个 数据 点 
x =(x;, xX) 
其 中 
X=—2+i':0.2 i=0,1,.…,20 
x =—2+j:0.2 j=0,1,…,20 
(a) 使 用 训练 集合 的 所 有 点 为 RB 函数 的 中 心 ， 实 现 RBF NN 的 设计 。 
(b) 使 用 从 输入 数据 中 随机 选择 的 150 个 中 心 实现 RBF NN 的 设计 。 把 该 网 络 的 性 能 和 部 
分 (a) 设计 的 网 络 性 能 相 比 较 。 
(c) 随机 选择 150 个 中 心 并 且 使 用 随机 梯度 方法 实现 RBF NN 的 设计 。 把 该 网 络 的 性 能 相 
对 于 部 分 (a) 和 (b) 的 网 络 性 能 做 比较 。 
(d) 使 用 整个 数据 集合 作为 RB 函数 的 中 心 设计 一 个 RBF NN。 应 用 正 交 最 小 二 乘 过 程 压 
缩 网 络 规模 。 描 绘 出 通过 OLS 回 归 选 择 的 中 心 ， 并 且 把 它们 同 部 分 〈c) 中 得 到 中 心 
相 比 较 。 
BO 3.13 ”使 用 一 个 RBF 神经 网 络 重复 问题 3.7。 讨 论 使 用 两 种 神经 网 络 结构 的 优点 和 缺点 。 
D 3.14 经 常 将 RBF 神经 网 络 用 于 非 线 性 动态 系统 的 辨识 。 考 虑 图 3-19 描 绘 的 情形 。 非 线性 设备 
实现 输入 序列 x( 与 输出 序列 y(k) 之 间 的 映射 。 基 于 以 前 的 输入 和 输出 序列 值 训 练 神经 
网 络 ， 以 预报 非 线 性 系统 的 输出 。 训 练 后 ， 神 经 网 络 辨识 非 线 性 系统 。 


输入 序列 输出 序列 


IK) 
输出 序列 的 
预测 





图 3-19 对 非 线性 系统 辨识 采用 RBF 神经 网 络 
让 我 们 假定 图 3-19 中 的 非 线性 设备 可 以 用 如 下 的 输入 /输出 差分 方程 来 表征 


y(k) + 0.25x(k)—0.3x(k —1) 


1 
~ 14+ y(k—-1)? 
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(a) 设计 一 个 RBF 神 经 网 络 执行 非 线 性 设备 的 辨识 。 
b) 实现 批 学 习 方 法 。 对 于 一 个 输入 序列 ， 使 用 零 均值 和 单位 标准 偏差 的 白色 噪声 。 
(c) 使 用 如 下 测试 信号 测试 辨识 的 结果 : 


= sin( 2 _ asin( 2 
2 (k)=sin{ 10 } ry (b= Asin 10 } 


解释 结果 。 


(d) 使 用 式 (3-159) ~ 式 (3-161) 的 学 习 规则 重新 解 这 个 问题 。 
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第 4 章 自 组 织 网 络 


4.1 概述 


虽然 有 许多 不 同类 型 的 自 组 织 神经 网 络 ， 但 它们 具有 共同 特征 。 这 就 是 具有 如 下 三 种 能 
D: 评估 提交 给 网 络 的 输入 模式 ， 基 于 输入 聚合 集 之 间 网 络 自身 的 相似 性 组 织 网 络 自身 去 学 
习 ， 以 及 把 输入 数据 分 类 (或 聚 类 ) 成 相似 的 模式 组 。 因此， 这 类 神经 网 络 的 学 习 无 “教师 ”， 
即 无 监督 学 习 。 在 第 9 章 讨 论 神经 网 络 的 主 成 分 分 析 (PCA) 神经 网 络 时 将 回顾 这 类 自 组 织 的 
思想 。 将 无 教师 学 习 的 相同 思想 应 用 于 〈 自 适应 地 ) 从 输入 数据 抽取 主 成 分 信息 。 

通常 ， 自 组 织 (或 无 监督 ) 学 习 涉 及 响应 一 系列 输入 模式 而 频繁 修改 网 络 突 触 权 值 。 权 
值 修改 依照 一 系列 的 学 习 规则 。 这 些 模式 重复 应 用 于 网 络 之 后 ， 出 现 一 些 有 意义 的 构 型 
(configuration)。 基 本 上 ， 为 了 响应 输入 模式 ， 从 网 络 内 许多 原始 随机 的 局 部 相互 作用 中 涌现 
全 局 顺序 。 该 全 局 顺序 最 终 导致 某 种 形式 的 一 致 行为 。 然 而 ， 对 于 自 组 织 学 习 而 言 ， 为 了 执 
行 有 意义 的 信息 处 理 功能 ， 提 交 给 网 络 的 输入 模式 必须 存在 元 余 。 从 输入 模式 的 这 种 元 余 中 
呈现 出 顺序 和 结构 ， 以 及 因此 而 来 的 使 神经 网 络 能 吸收 作为 知识 的 信息 。 例 如 ， 在 PCA 情 形 
下 ， 从 大 量 提交 给 网 络 的 随机 输入 模式 中 ， 神 经 元 权 值 收敛 于 将 输入 映射 到 输入 数据 的 主 成 
分 的 映射 算 子 。 换 言 之 ， 从 大 量 (TA) 输入 数据 中 ， 网 络 学 习 输入 模式 固有 的 潜在 特征 ， 
映射 (矩阵 ) ， 即 网 络 的 突 触 权 值 包含 这 个 信息 。 

特殊 的 自 组 织 神 经 网 络 基于 竞争 学 习 。 在 竞争 学 习 网 络 中 输出 神经 元 之 间 竞 争 ， 决 出 获 
胜 者 。 这 章 将 学 习 这 类 网 络 。 给 出 三 类 基本 的 神经 网 络 : Kohonen 自 组 织 映 射 (SOM) 、 学 习 
向 量 量化 (LVQ) 和 自 适应 共振 理论 (ART) 网络 。 虽 然 LVQ 学 习 不 是 非 监督 的 ， 愉 好 不 属 
于 这 类 网 络 。 然 而 ， 从 某 种 意义 上 来 说 ， 由 于 LVQ 同 Kohonen SOM 有 密切 的 联系 而 确实 属于 
这 类 神经 网 络 。 


4.2 Kohonen 自 组 织 映射 


由 Kohonen 提 出 的 自 组 织 映射 是 非 监 督 的 、 竞 争 学 习 的 聚 类 网 络 ， 在 其 中 一 次 仅 有 一 个 神 
经 元 (或 一 组 中 仅 有 一 个 神经 元 ) “激活 ”[1]。 自 组 织 映 射 (SOM) 是 模仿 在 大 脑 中 发 生 的 
某 些 映射 的 人 工 系统 。 例 如 ， 在 视觉 系统 中 ， 存 在 儿 类 视觉 空间 到 可 视 皮 层 的 表面 的 拓扑 映 
射 。 这 类 自 组 织 神经 网 络 的 基本 思想 是 (从 原始 事件 空间 ) 输入 被 自 适应 单元 的 简单 网 络 接 
受 。 信 号 表示 以 一 种 使 得 响应 保持 原始 事件 相同 的 拓扑 排序 的 方式 (自动) 映射 为 一 系列 输 
出 。 因 此 ， 网 络 能 获得 可 观察 事件 属性 的 正确 拓扑 映射 的 自动 形成 。 换 言 之 ，SOM 以 拓扑 有 
序 的 方式 将 (任意 维 ) 输入 模式 变换 为 一 维 或 二 维 的 特征 映射 。 图 4-1 表 示 通 常 的 特征 映射 结 
构 ( 从 输入 向 量 集 到 二 维 映 射 )。 图 4-2 表 示 一 个 生物 学 激发 的 映射 网 络 ， 它 模仿 从 视网膜 到 
皮层 的 映射 (这 类 结构 的 研究 通常 少 于 图 4-1 表 示 的 常用 结构 )。 

我 们 将 研究 用 于 图 4-1 表 示 结 构 的 Kohonen 训 练 算法 。 即 使 输出 神经 元 之 闻 没 有 侧 向 连接 ， 
但 是 与 输入 最 佳 匹配 的 神经 元 邻 域内 的 神经 元 ( 即 获胜 神经 元 ) 被 修改 ,使 与 以 前 相 比 它们 
更 像 获胜 单元 那样 响应 。 

神经 元 不 是 以 相互 独立 的 方式 而 是 以 拓 牛 相关 的 方式 学 习 ， 对 于 形成 有 序 映 射 来 说 是 至 
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关 重 要 的 。 在 生理 学 激发 的 神经 网 络 模 型 中 ， 空 间 邻 近 的 神经 元 使 用 侧 向 反馈 连接 和 其 他 侧 
向 交互 作用 获得 相关 学 习 。 使 用 侧 向 连接 的 早期 特征 映射 结构 由 Willshaw and von der 
Mailsburg13] 开 发 视网膜 映射 问题 而 提出 。 他 们 运用 图 4-2 所 示 的 输出 神经 元 之 间 具 有 (HA 
WER) 侧 向 连接 的 结构 。 


神经 元 m 





XI 22 Xn 


图 4-1 自 组 织 映射 一 常用 的 特征 映射 结构 。 输 入 与 输出 神经 元 全 连接 ， 但 仅 显 示 了 少数 连接 





图 4-2 自 组 织 映射 一 生物 学 激发 的 映射 《能 模仿 从 视网膜 到 皮层 的 映射 )。 每 一 输入 与 所 有 
输出 神经 元 全 连接 但 图 中 仅 给 出 了 少数 连接 


图 4-1 所 示 的 网 络 输入 可 写成 向 量 形式 ， 


x = [xxn] (4-1) 

二 维 (2-D) 阵列 中 神经 元 ;的 突 触 权 值 向 量 由 下 式 给 出 : 167 
Wi = [W Wa Wn] i= 1,2,---,m (4-2) 
其 中 m 是 2-D 阵 列 中 的 输出 神经 元 总 数 。 输 入 向 量 x 与 突 触 权 值 向 量 w; 的 最 住 匹配 由 下 式 确定 : 
q(x) = min Il x- w, I, i=1,2,---,m (4-3) 


其 中 q(x) 表 示 输 出 神经 元 阵列 的 索引 ， 特 别 指定 为 获胜 神经 元 ，|| ll; 是 ,或 欧 几 里 得 范 数 。 因 
此 ， 通 过 运用 式 (4-3)， 连 续 输入 空间 映射 到 神经 元 的 离散 阵列 。 网 络 的 响应 也 可 以 是 最 邻 
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近 输 入 的 输出 神经 元 突 触 权 值 向 量 ， 而 不 是 它 在 输出 神经 元 阵列 中 的 索引 位 置 。Kohonen 算 法 
的 下 一 步 是 更 新 与 获胜 神经 元 相 联 系 的 突 触 权 值 向 量 和 获胜 神经 元 的 确定 邻 域 内 的 神经 元 的 
突 触 权 值 向 量 。 学 习 规 则 可 表示 为 

w;(k +1) = w,(k) + n D x(k) - w; k) (4-4) 
其 中 


中 0< wk) < 1， 学 习 率 参数 应 随时 间 下 降 (4-5) 
0 TEN 外 
是 标量 核 函 数 (或 邻 域 函数 ) 。 更 具体 地 ， 由 式 (4-4) 和 式 (4-5) ， 学 习 规 则 可 写 为 
w(k) + w(k)[x(k) — w,(k)] 如 果 i EN, (k) 
w,(k) 如 果 iEN,(k) 


其 中 0 < uk) < 1 (学 习 率 参数 )。 注 意 式 (4-6) 中 的 NN, 通常 看 成 是 离散 时 间 指 标 k 的 函数 ， 即 
Nk)。 在 训练 开始 时 ， 令 邻 域 集 N,(D 相 对 大 一 些 ， 然 后 随 着 时 间 单 调 地 缩小 [和 i， 已 经 证 明 是 
有 利 的 (如 图 4-3 所 示 )。 


oooo0oo0o00000ọ0900000Ọ 


[e 在 N，( 获 胜 神经 元 4 的 邻 域 集 合 ) 内 ， 其 
Tv lk) = 


wD] (4-6) 








N k+ 1) 





N,(k+ 2) 
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图 4-3 拓扑 邻 域 的 例子 ， 表 示 邻 域 的 单调 缩小 


从 生物 侧 向 相互 作用 是 钟 形 曲线 [4] 的 角度 来 说 ， 邻 域 函 数 mo 的 定义 可 以 更 一 般 化 。 为 了 
将 其 与 核 函 数 合并 ,分 别 用 向 量 r, Mr 表示 神经 元 qg 和 i 的 坐标 。 因 此 ， 式 (4-4) 中 :的 一 种 
典型 选择 为 

gi 三 TloeXPp( — llr; — riP/or) (4-7) 
其 中 的 mo = mo(D 和 ca = olk) 选择 为 适合 的 时 间 下 降 函 数 。 根 据 Hertz et al.[6], X (4-4) 中 的 
学 习 规 则 把 与 获胜 单元 相关 的 权 值 向 量 w, 拖 向 x, 同时 也 把 那些 最 接近 单元 的 w 随 w, 一 起 拖 动 。 
在 输入 空间 可 以 将 弹性 网 络 想 象 成 想 尽 可 能 接近 网 络 输入 。 弹 性 网 络 具 有 输出 阵列 的 拓扑 ， 
网 络 的 点 可 看 成 具有 权 值 作为 坐标 。 

在 学 习 过 程 期 间 ， 有 两 个 分 离 但 关联 的 阶段 ， 即 排序 阶段 和 收敛 阶段 。 在 初始 学 习 过 程 ， 
即 排 序 阶 段 ， 学 习 率 参数 应 设置 得 接近 单位 值 ， 然 后 渐渐 地 下 降 (但 不 允许 小 于 0.1)。 在 学 
习 过 程 的 这 段 期 间 完 成 权 值 向 量 的 拓扑 排序 。 收 分 阶段 (学习 过 程 的 第 二 阶段 ) 一 般 是 网 络 
学 习 最 长 的 部 分 。 在 这 阶段 为 了 完成 映射 的 精细 调整 ， 剩 下 的 迭代 是 必需 的 。 学 习 率 参数 应 
该 长 时 间 保 持 相 对 小 的 值 。 例 如 ， 学 习 率 参数 应 该 接近 (或 小 于 ) 0.01[4]。 
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SOM 算 法 的 小 结 


步骤 1 初始 化 网 络 权 值 向 量 wi,e 初 始 化 学 习 率 参数 ， 定 义 拓 扑 邻 域 函 数 ， 初 始 化 参数 ， 设 置 E= 0。 
步骤 2 检查 停止 条 件 。e 如 果 失 败 ， 继 续 ， 如 果 成 功 ， 退 出 。 
HRS 对 于 每 个 训练 向 量 x， 执 行 步骤 4 一 步骤 7。 

步骤 4 计算 和 输入 最 好 匹配 权 值 向 量 


q(x) = min llx- w; ll, 


步骤 5 对 于 给 定 邻 域 ; E N,( 旭 的 所 有 单元 (4 是 获胜 神经 元 ) ， 按 如 下 公式 更 新 权 值 向 量 
mi(J+ACED[xz(E) — w,(k)] 如 果 iEN, (k) 
w,(k) 如 果 iN, (kK) 
其 中 0 < uk) < 1 (学 习 率 参数 ) 。 
步骤 6 调整 学 习 率 参数 。 
步骤 7 适当 缩减 拓扑 邻 域 N,(k)。 
SMS 设置 4 一 上 + 1， 然 后 转 到 步骤 2。 o 


wzD-| 


例 4.1 ”在 单位 正方 形 内 均匀 产生 1 000 个 二 维 向 量 ， 参 看 图 4-4。 这 些 向 量 映射 到 一 个 5 x 
5 平面 阵列 的 神经 元 。 使 用 MATLAB 神 经 Ls 
网 络 工具 箱 中 的 函数 trainsm 完 成 模拟 。 

在 训练 期 间 ， 邻 域 和 学 习 率 参数 均 逐 渐 减 
小 。 图 4-5 显 示 随 网 络 学 习 表示 输入 的 分 
布 时 神经 网 络 训练 的 结果 。 图 4-5b 中 在 
800 次 迭代 后 映射 开始 “展开 ”。 在 图 4-5c De 
框架 中 ， 在 1 600 次 迭代 后 ， 映 射 继续 展 
开 。 最 后 在 10 000 次 迭代 之 后 ， 图 4-5d 框 
架 显示 出 映射 本 质 上 展开 。 在 图 中 神经 元 0 
Wit AE MA A, EE 
入 向 量 的 均匀 分 布 的 结果 。 这 将 不 是 对 其 -05 





他 输入 分 布 的 情形 。 图 4-6 显 示 一 个 可 能 =0.5 0 0.5 1 is 
偶尔 发 生 的 异常 , 也 就 是 说 , 映射 的 扭曲 。 图 4-4 例 4.1 中 使 用 的 1 000 个 二 维 随机 向 量 的 分 布 。 在 两 
当 映 射 的 不 同 部 分 拟 合 输入 空间 的 分 离 部 个 维 上 向 量 是 从 [0，H 区 间 内 的 均匀 分 布 抽取 的 


分 的 拓扑 时 ， 可 能 出 现 这 种 情形 。 这 个 例 
子 与 前 一 个 例子 的 唯一 不 同 是 一 个 不 同 的 初始 化 权 值 矩阵 。 在 4 000 次 迭代 后 ， 映 射 仍然 没有 
展开 ， 并 且 它 将 不 大 可 能 展开 。 所 以 ， 最 好 是 简单 地 重启 动 一 个 具有 不 同 初始 权 值 集合 的 训 
例 4.2 Kohonen SOM 的 一 个 非常 重要 的 特征 称 为 拓扑 排序 性 质 。 这 个 性 质 使 SOM 能 够 从 
高 维 的 输入 空间 中 形成 一 个 抽象 的 二 维 表示 。 这 里 说 明 这 个 属性 。 产 生 两 个 分 别 具 有 1 000 个 
三 维 高 斯 向 量 集 。 两 个 数据 集 的 方差 ox = 0.1。 而 第 一 个 数据 集合 的 中 心 在 (0,0,0) (类 别 1)， [70 
第 二 个 数据 集合 的 中 心 在 (5, 5, 5) (类 别 2) 。 图 4-7 显 示 两 个 高 斯 云 。 我 们 训练 一 个 正方 形 内 
有 25 个 神经 元 的 SOM 了 映射。 这 两 个 三 维 向 量 集合 提交 给 网 络 5 000 次 , 也 就 是 5 000 个 训练 回合 。 





O ”实现 网 络 权 值 的 初始 化 既 可 以 随机 初始 化 ， 也 可 以 选择 反映 输入 数据 的 某 些 先 验 知识 的 一 组 权 值 ， 也 就 是 ， 
输出 聚 类 的 可 能 分 布 的 信息 。 i 
© ian, PERPETUI FH EAI Ce AR LY EE. 
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如 前 例 ， 使 用 MATLAB 神 经 网 络 工 具 箱 中 的 函数 trainsm 完 成 模拟 ， 在 训练 期 间 邻 域 和 学 习 
率 参数 (初始 设 为 1) 均 是 逐渐 减少 的 。 在 5 000 个 训练 回合 之 后 的 二 维 映射 显示 在 图 4-8a 中 
在 图 4-8b 中 画 出 三 维 的 权 值 向 量 ， 并 且 两 个 类 显示 
的 轮廓 通过 计算 每 个 权 值 向 量 均值 来 决定 。 从 图 4-8a 及 图 4-8b 中 ， 我 们 发 现 SOM 能 适当 地 分 


(这 是 训练 时 MATLAB 产 生 的 拓扑 网 格 ) 。 


类 三 维 高 斯 向 量 。 


al 


a) 0 次 迭代 


b) 800 次 迭代 


c) 1 600% 


d) 10 000 次 迭代 


图 4-5 从 一 个 单位 正方 形 到 一 个 5 x 5 神经 元 阵列 的 均匀 随机 向 量 的 映射 。 初 始 学 习 


率 参 数 设 置 为 KO) = 1 


图 4-6 经 过 4 000 次 迭代 后 扭曲 的 特征 映射 
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图 4-7 三 维 高 斯 向 量 的 两 个 集合 。 二 者 方差 均 


为 o = 0.1 和 如 图 所 示 的 中 心 
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a) 


图 4-8 a) 两 个 三 维 高 斯 向 量 集合 到 一 个 5 x 5 神经 元 阵列 的 Kohonen SOM 网 络 映射 ，b) SOM 
的 三 维权 值 。 通 过 计算 每 个 权 值 向 量 的 均值 来 决定 这 两 个 类 


4.3 学 习 向 量 的 量化 


向 量 的 量化 [7-10] 是 用 于 语音 和 图 像 数据 压缩 的 技术 。 基 本 思想 是 用 较 小 的 原型 集合 表示 
输入 向 量 ， 提 供给 输入 空间 .多 一 个 好 的 近似 ， 其 中 向 量 xf = 1,2, …, 入 ) 构 成 输入 空间 。 无 需 
给 出 输入 空间 概率 模型 的 先 验 知识 ， 假 定 可 以 提供 数据 的 一 个 很 长 的 训练 序列 〈 或 一 个 相对 
大 的 输入 训练 向 量 集 合 ， 即 N >>1)。 目 标 是 开发 量化 向 量 的 “ 码 本 ”"， 然 后 ， 使 用 这 些 向 量 编 
码 任何 输入 向 量 。 为 了 开发 出 一 个 可 靠 的 码 本 ， 使 用 大 集合 的 训练 向 量 根据 预先 确定 的 聚 类 
数目 形成 组 ， 并 且 聚 类 /用 它 的 特定 中 心疼 (BREMNER) 来 表示 。 中 心 育 类 是 基于 给 
定 的 失真 度量 。 虽 然 可 运用 几 个 不 同 的 失真 度量 ， 然 而 ， 失 真 度量 应 该 是 易 处 理 的 、 利 用 样 
本 数据 易 计 算 和 主观 上 是 有 意义 的 [11]。 这 类 失真 度量 之 一 是 基于 向 量 的 L，( 欧 几 里 得 ) 范 数 
的 ， 即 : l 


d(x, £) =ll x - 2%? I= (x - $) (x - £) (4-8) 
称 为 平方 误差 失真 。 一 旦 产生 码 本 ， 将 储存 在 “传送 者 ”和 “接受 者 ”两 处 。 输 入 向 量 x; 的 量 
化 按 以 下 步骤 进行 ，(1) 传送 输入 给 向 量 量化 器 ， 并 且 与 码 本 向 量 *; 0 = 1, 2, …, mm) 比较， 
最 后 选择 最 小 失真 的 码 本 向 量 ( 即 根据 式 (4-8) 得 到 最 小 距离 )。(2) 选 定 的 向 量 记 代表 x;， 
索引 gq (与 输入 向 量 所 属 的 恰当 类 型 相关 ) 传递 给 接受 者 ， 选 择 与 输入 向 量 x, 的 描述 一 样 的 合 
适 的 重 构 向 量 *+, 。 图 4-9 解 释 了 向 量 量 化 过 程 。 
编码 器 解码 器 






x, j=1,2, 7, m 
( 码 本 向 量 ) 


q) = min |x= 
vs 


传递 信道 | 


$j, j= 1, 2, ar) m 


( 码 本 向 量 ) q 


J 


x e Z (输入 空间 ) 
qa)=4 (5 “RRE” MAEA 2 相关 的 索引 ) 


图 4-9 向 量 量化 器 
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男 外 一 个 失真 度量 是 马 哈 拉 诺 比 斯 (Mahalanobis) 失真 [12]， 定 义 为 : 
dy (Xx,X) = (x-t) Cy (x -zt) (4-9) 


其 中 权 值 矩阵 C, 输 入 的 协 方差 矩阵 ， 即 C, =E- xE) y, 其 中 =E) (参见 A.7.6 节 )。 
另 一 类 更 复杂 的 Itakura and Saito 失 真 度量 [13, 14] 定 义 如 下 : 

d(x, £) = (x - £) R(x)(x - £) (4-10) 
其 中 对 于 每 个 x-，R(x) 是 正定 对 称 和 矩阵 。 

当 用 式 (4-8) 定义 的 欧 几 里 得 距离 (失真 ) 度量 来 确 
定 输入 向 量 x; 属于 的 区 域 (类 、 组 、 分 类 或 聚 类 ) 时 ， 量 化 
器 称 为 Voronoi 量 化 器 [15]。Voronoi 量 化 器 将 输入 空间 划分 
成 各 种 各 样 的 Yoronoj 单 元 [81， 每 一 单元 由 重生 向 量 地 表 
示 。 第 4 个 Voronoi 单 元 包括 输入 空间 . 必 中 在 欧 几 里 得 意 
义 下 与 重生 向 量 x 靠近 而 远离 其 他 重生 向 量 (jz 9) 的 那 
些 点 。 图 4-10 显 示 将 输入 空间 .多 划分 成 与 四 个 重生 向 量 相 联 
系 的 四 个 单元 的 例子 。 

Kohonen 开 发 了 学 习 癌 量 量化 [16]， 并 且 在 {17] 中 总 结 了 
这 个 算法 的 三 种 版 本 。 学 习 向 量 量化 是 在 向 量 量化 基础 上 能 
将 输入 向 量 分 类 的 监督 学 习 技 术 。 这 里 的 LVQ 形 式 是 LVQ1， 图 410 其 有 四 个 重生 向 量 表示 四 





是 Kohonen 的 学 习 向 量 量化 的 第 一 种 版 本 [16]。LVQ1 训 练 过 个 单元 的 Voronoi 量 化 器 所 
程 开始 于 随机 地 自 “ 标 定 ” 训 练 集合 选择 一 个 输入 向 量 (以 实现 的 输入 空间 党 的 划分 


及 该 向 量 的 正确 类 别 ， 因 此 为 监督 学 习 )。 每 类 或 分 类 中 实际 存在 几 个 重生 (原型 ) 向 量 。 
LYQ1 与 Kohonen SOM 相 似 ， 即 使 LVQ1 是 一 个 监督 网 络 ， 而 Kohonen SOM 是 非 监督 的 。 

给 定 一 个 输入 向 量 x 到 网 络 ，LVQ1 的 “输出 神经 元 ”( 即 ， 类 或 分 类 ) 认为 是 根据 下 式 的 
一 个 “获胜 者 ” 


min d(x,,w,) = min ll x, -w, i; (4-11) 


它 与 我 们 建立 的 Kohonen SOM “获胜 规则 ”本 质 上 是 一 样 的 。 式 (4-11) 中 唯一 不 同 在 于 采 
用 了 欧 几 里 得 范 数 的 平方 。 在 式 (4-11) 中 突 触 权 值 向 量 w 代替 了 图 4-8 和 图 4-9 中 表示 的 重生 
向 量 x, 。LVQ1 与 Kohonen SOM 的 主要 不 同 在 于 如 何 更 新 权 值 向 量 。 我 们 用 {z JG = 1, 2，…， 
N) 表示 输入 向 量 集 ，{w 40 = 1, 2, …, 四 表示 网 络 突 触 权 值 向 量 (Voronoi 向 量 )。 我 们 用 C,, 
表示 与 〈 权 值 ) Voronoi 向 量 w 相 关 的 分 类 ，C,， 是 网 络 输入 向 量 x; 的 类 标签 ， 权 值 向 量 w 
以 下 面 方式 调整 : 
1. 如 果 与 权 值 向 量 相 关 的 类 与 输入 向 量 的 类 标签 相同 ， 即 C, =C., W 
w(k + 1)= wk) + ulk)[x;,— wo] (4-12) 
其 中 0 < wk) < 1 (学 习 率 参数 )。 
2. 但 , MRC, =C., Al 
l wk + 1) = wk) -ACE - w(K)] (4-13) 
并 且 其 他 权 值 向 量 不 调整 。 
所 以 ， 如 果 类 是 正确 的 ， 则 式 (4-12) 中 关于 修改 权 值 向 量 的 更 新 规则 是 标准 的 。 换 句 话 
说 ， 根 据 式 (4-12)， 如 果 输 入 向 量 与 权 值 向 量 的 类 标签 一 致 ， 则 权 值 向 量 wj 沿 着 输入 问 量 x; 方 
向 和 移动。 然而， 如果 类 不 正确 ， 根 据 式 (4-13)， 则 权 值 向 量 w 沿 着 远离 x 的 方向 移动 。 学 习 率 








参数 4( 有 D 是 关于 离散 时 间 指 标 k 单 调 下 降 的 例如， 随时 间 线 性 下 降 ， 起 始点 为 0.01 或 0.02{17]。 
很 多 时 候 使 用 0.1 为 初 值 )。LVQ 的 收敛 性 已 在 Baras and LaVigna[181 中 研究 ， 他 们 的 方法 以 随 
机 有 融 近 理论 为 基础 。 有 几 种 方法 可 初始 化 权 值 ， 如 ， 训 练 向 量 集合 中 的 前 天 (总 的 类 别 数 ) 个 
向 量 可 用 来 初始 化 m 个 权 值 向 量 ， 即 w(0)G = 1, 2,--, m)。 另 一 种 方法 是 随机 初始 化 权 值 向 量 
(在 输入 向 量 的 动态 范围 内 )。 终 止 条 件 可 以 基于 期 望 的 训练 回合 的 总 量 ,， 或 者 基于 监控 权 值 向 
量 的 收敛 。 另 一 类 终止 条 件 可 以 基于 直接 监控 学 习 率 参数 ， 当 学 习 率 参数 充分 小 时 , 终止 训练 。 
PRAM ATRL ERE (TEL) 为 终止 条 件 。 基 本 的 LVQ1 算 法 小 结 如 下 : 175 


LVQ1 算 法 


PETRI Rag tt 


步骤 1 初始 化 所 有 权 值 向 量 w(0)， 初 始 化 学 习 率 参数 MO0)， 并 且 设 置 E= 0。 
步骤 2 检查 终止 条 件 。 如 果 失 败 ， 继 续 ， 如 正确 ， 退 出 。 
步骤 3 对 每 个 训练 向 量 x; 执 行 步骤 4 与 步骤 5. 
SRA 决定 权 值 向 量 指标 0 = 9)， 以 便 minl -wOIIRAAA (4-11) 中 给 出 欧 几 里 得 
距离 的 平方 ]。[{ 注 意 ，w( 旨 将 为 最 小 化 范 数 平方 的 权 值 向 量 。] 
步骤 5 恰当 更 新 权 值 向 量 ws(k) 如 下 : 
wR C = Cu 则 wk + 1) = wk) t+ 一 We] 
如 果 Cu = CC; I) wak + 1) = wk) — wD; 一 me)] 


步骤 6 用 上 + RR, RET RER, ORD BY R2, 














LVQ1 的 神经 结构 如 图 4-11 所 示 。 实 际 上 该 结构 除了 没有 拓扑 结构 外 基本 上 与 Kohonen 
SOM 映 射 的 结构 一 样 。 

Kohonen 改 进 了 LVQ1 并 且 称 为 新 版 本 LVQ2[17]。LVQ2 算 法 基于 光滑 的 移动 决策 边界 逼近 贝 
叶 斯 (Bayes) 极限 。LVQ2 版 本 接着 修改 ， 导 致 LVQ2.1{17]， 最 终 发 展 为 LYQ314]。 这 些 后 来 的 
LVQ 版 本 共同 具有 获胜 神经 元 的 权 值 向 量 和 “次 获胜 (runner up)” 神 经 元 的 权 值 向 量 都 被 更 新 。 
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图 4-11 学 习 向 量 量化 的 神经 结构 。 输 出 类 (7 = 1, 2, …, m) 有 与 输出 类 的 突 触 权 值 向 量 相关 76 


的 类 标签 ， 即 C, j=1,2,…,m)® 
例 4.3 ”我 们 给 出 了 一 个 非常 简单 的 、? 个 四 维 向 量 分 配 到 两 个 类 型 的 例子 。7 个 向 量 和 相 





日 ”学 习 率 参数 4 可 以 随 k (离散 时 则 指标 ) 缩减 如 下 ; 对 于 Kk > 0, udo = wk Pk + 1)。 
© FERMES (参考 2.2 节 ) 建立 的 网 络 权 值 的 下 标的 习惯。 但 是 ， 在 上 曾 给 出 的 LVQ1 算 落 中 ， 考 虑 了 权 
值 向 量 的 转 痉 。 
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关 的 类 型 如 下 所 示 : 
向 量 ŽW (C) 
x, =[1, 0, 0, 1—1 
x, = [0, 1, 1,0] — 2 
x, = [0, 0, 0, 1]? > 2 
x, = [1, 0, 0, oy > 1 
x,=[1,1,1,0]’—1 
x, = [0, 1, 1, 1—2 
x =[1,1,1,1] — 1 
如 上 所 述 , Mae — TEE A ERARA AA a x, Fx. Ew Aw, 
对 于 w, 和 w; 的 相关 类 型 ， 有 C,, =1 和 C,, = 2。 使 用 剩余 5 个 向 量 进行 训练 (第 一 个 训练 回合 )。 
经 历 一 个 训练 回合 的 细节 。 初 始 化 学 习 率 参数 到 ju(k = 1) = u1) = 0.1， 随 每 个 训练 回合 k 来 减 
少 它 ， 例 如 ，1(2) = 1(1) /2，J(3) = 1(2) / 3， 等 等 .9 : 
训练 回合 1(K = 1): 
1. 初始 化 权 值 : 
Wi = [1, 0, 0, 1)" (类 别 Cn, = 1) 并 且 
w, = {0, 1, 1, 0] (类 别 C。 =2) 
2. 对 于 类 别 C, = 2 WHA Fx, = [0, 0, 0, 1)’, E: 
Ix, - w, If =3 
Ix, ~ w, =1 一 最 小 值 > q=1 
HFC +C, ， 移 动 权 值 向 量 由 远离 己 ， 也 就 是 使 用 式 (4-13) : 
w, = [1, 0, 0, 117 —0.1({0, 0, 0, 1]7—[1, 0, 0, 115 
= [1.1, 0, 0, 1]7 
3. 对 于 类 型 C, = 1 的 输入 向 量 x4 三 [1, 0, 0, 07, 检查 : 
ix, —w, B=3 
lx, -w If=1.01 = B/MA = q=1 
HFC, = C, ， 沿 zx: 方向 移动 权 值 向 量 w， 即 使 用 式 (4-12): 
wi = [1.1, 0, 0， 1]7 + 0.1([1, 0, 0, 0] —[1.1, 0, 0, 115 = [1.09, 0, 0, 0.917 
4. 对 于 类 型 C= ] 的 输入 向 量 rs = [1, 1, 1, 0 ， 检 查 ; 
Ix, - w, I} = 2.8181 
ix, -w =1= B/MA => q=2 
由 于 C+ C,,， 移 动 权 值 向 量 w, 远 离 x;， 也 就 是 使 用 式 (4-13) : 
w= [0, 1,1, 0]7 一 0.1([1, 1, 1, OJ’ — (0, 1, 1, 0)5 
=[-0.1,1, 1,0] 
5. 对 于 类 型 Cu =2 的 输入 向 量 xs = [0， 1, 1, 1)’, 检查 : 





O 注意 这 个 例子 中 ， 我 们 采用 初始 离散 时 间 指 标 为 k = ! 替 代 k = 0。 因 此 ， 学 习 率 参数 现在 根据 KA) = uk- 
D/k, k> 1 调整 。 
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Ix, -Wi l= 3.1981 

lx, -有 =1.01 一 最 小 值 之 9=2 
由 于 C。= C,, ， 沿 xe 方 向 移动 权 值 向 量 w， 也 就 是 使 用 式 (4-12): 

w, = [一 0.1, 1, 1,0]7+0.1([0, 1, 1, 1]7—[—0.1, 1, 1, OJ”) = [— 0.09, 1, 1, 0.1]7 
6. HFC, = NA x, = [1, 1,1, 1] ， 检 查 
lx,- w, 13 = 2.0181 itx,- w, I} = 1.9981 = &/ME =q = 2 

由 于 C，= C,,， 移 动 权 值 向 量 w; 远 离 x*;， 也 就 是 说 ，、 使 用 式 (4-13) 
w, =[—0.09, 1, 1, 0.1]’—0.1([1, 1, 1, 17 一 [一 0.09, 1, 1, 0.117) = [— 0.199, 1, 1, 0.01)" 
训练 回合 1 的 结束 

表 4-1 用 于 LVQ1 的 MATLAB 函 数 








function W = lvqi (X,CX,m,mu, maxiter) 


% 

%W= LVQ1 (X,CX,mu,maxiter) computes the weight 

% matrix for learning vector quantization 1 (LVQ1) 
% 

%X: is the matrix of inputs, i.e., each column 

% vector is an input 

% CX: is a row vector of scalar ‘'classes’’ associated 
% with the column vectors of X 

% Mm: number of different classes 

% mu: initial learning rate parameter 


% maxiter: maximum number of training epochs (iterations) 
% 
N=size (X,2); 
% Initialize the weight vectors with the first nc vectors 
% from the training set (Note: must have training vectors 
% arranged so first nc vectors have the full set of classes 
% to be represented) . 
WeK(:,1sm) ; 
=CX(1:m) : % classes for weight vectors 
snorm=zeros (1,m); 
niter=1; 
while niter <= maxiter 
if niter == 1 
for ism+1:N 
for j=l:m 
snorm (1,j)=norm(X(:,1)-W(:,5))*2; 

end 

(mind, index] =min(snorm) ; 

if CX(i)==CW(index) 

W(:, index) =W(:, index) +mu* (X(:,i)-W(:,index)) ; 


else 
W(:, index) =W(:,index)-mu* (X(:,i)-W(:,index)) ; 
end 
end 
else 
for i=1:N 
for j=l:m 
snorm(1,j)=norm(X(:,i)-W(:,j))*2; 
end 


[mind, index] =min(snorm) ; 
if CX(i)==CW(index) 
W(:,index)=W(:,index)+(mu/niter) *(X(:,i)-W(:,index)); 


else 
W(:, index) =W(:,index)-(mu/niter)*(X(:,i)-W(:, index) ); 
end 
end 
end 
niter=niter+1; 
end 


Ce— 
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图 4-12 两 个 权 值 向 量 的 元 素 作为 训练 回合 函数 的 收敛 图 


根据 上 面 给 出 的 算法 ， 置 k = 2, w(2)= ul) / 2 = 0.05， 转 到 步 双 2， 并 且 检 查 停止 条 件 。 
在 下 一 回合 的 训练 中 以 第 一 次 训练 的 向 量 刀 开始 ， 继 续 下 去 。 在 这 个 例子 中 ， 使 用 表 4-1 的 
MATLAB, VIZ Aes A500, 

在 500 次 训练 回合 之 后 最 终 的 权 值 为 


1.2996 -0.1881 
0.4952 1 

”|o04952| “2 1 
0.4848 0.3603 


图 4-12 显 示 了 两 个 权 值 向 量 的 元 素 作为 训练 回合 函数 的 收敛 图 。 最 后 ， 若 我 们 计算 每 个 输入 向 量 
178|] ”和 上 面 显 示 的 计算 权 值 向 量 w, 和 w, 的 最 小 距离 ， 这 将 指出 每 个 输入 向 量 x 属 于 哪个 类 。 结 果 如 下 : 
179 min{ Il x, -w I5, x, - w, IID} 二 最 靠近 wi 一 类 1 

min{ IIx, —w, I, Ix, —w, 此 } => x 最 靠近 w, 一 类 2 
min{ Ilx, —w, I$, x, -w IG) 一 x 最 靠近 w, 一 类 2 
min{ Ilx, - w, 用 省 xz - w, I} => x 最 靠近 wi 一 类 1 
min{ thx, -wi 也 省 x -w I} = 25 最 靠近 w 一 类 1 
min{ Ix, -w 15, Ilx, -w I6} = x 最 靠近 ws 一 类 2 
min{ Ilx, - w, IÈ, x, - w, I) = 2 最 靠近 w 一 类 1 
这 些 结果 准确 对 应 于 每 个 输入 向 量 确定 的 类 。 
自 组 织 上 映射 和 LVQ 
通过 结合 Kohonen SOM 和 LVQ， 可 发 展 一 个 自 适应 模式 分 类 系统 。 模 式 识别 中 使 用 的 K 
均值 聚 类 [19] 可 以 用 来 替代 Kohonen SOM。 我 们 仅 考 虑 后 者 。 处 理 中 的 第 一 步 使 用 SOM 选 择 
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一 个 包含 有 关 输 入 数据 的 相关 信息 的 比较 小 的 特征 集合 ， 输 入 数据 可 以 在 第 二 步 由 LVQ 网 络 

分 类 。 所 以 ，LVQ 网 络 将 起 到 一 个 实际 分 类 器 的 作用 ， 使 用 选择 自 输入 数据 的 特征 (由 SOM 
产生 )， 把 它们 指派 给 每 个 类 或 分 类 。 这 个 混合 的 自 适应 模式 分 类 系统 组 合 了 无 监督 网 络 
(SOM) 和 监督 网 络 (LVQ)， 如 图 4-13 所 示 。 





图 4-13 使 用 Kohonen SOM 和 LVQ 的 自 适 应 模式 分 类 系统 


例 4.4 图 4-13 中 的 混合 的 自 适应 模式 分 类 网 络 的 用 途 。 使 用 例 4.2 的 结果 ， 也 就 是 使 用 
Kohonen SOM 产 生 的 三 维权 值 向 量 [显示 在 图 4-8b， 并 且 在 图 4-14a 中 重复 ]。 输 入 25 个 SOM 权 
值 向 量 到 有 两 个 确定 类 (类 1 和 类 2， 如 图 4-14a 所 示 ) 的 LVQ 网 络 。 修 改 表 4-1 所 示 的 
MATLAB LVQ1 程 序 ， 随 机 地 初始 化 两 个 三 维权 值 。 初 始 学 习 率 参数 设置 为 k(1) = 0.1， 训 练 
回合 总 数 为 1000。 最 后 ， 两 个 三 维权 值 向 量 显示 在 图 4-14b 中 ， 两 个 权 值 向 量 表示 为 ; 


0.3232 4.2837 
wi = |0.3770| 和 w, = |4.2825 
0.3113 4.2575 














它们 相当 接近 于 图 4-7 中 的 高 斯 云 的 中 心 。 将 图 4-14a 中 的 SOM 结 果 与 图 4-14b 使 用 LVQ 结 果 相 
比较 ， 容 易 地 发 现 通过 使 用 LVQ 分 类 模式 和 指派 它们 到 两 个 不 同 的 类 所 获得 的 提高 。 
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图 4-14 a) 例 4.2 带 有 两 个 定义 类 别 的 SOM 三 维权 值 向 量 ，b)1000 个 训练 回合 后 LVQ1 181 
网 络 的 最 终 权 值 向量 


4.4 自 适 应 共振 理论 (ART) 神经 网 络 


由 竞争 学 习 网 络 形成 的 聚 类 (分 类 ) 并 不 能 保证 稳定 。 例 如 ， 即 使 连续 提交 相同 的 输入 
向 量 集合 给 网 络 ， 获 胜 单元 也 会 继续 变化 。 防 止 这 种 情况 的 一 个 途径 是 逐渐 缩减 学 习 率 直至 
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零 ， 然 后 冻结 学 习 所 得 的 分 类 。 然 而 ， 这 样 做 时 ， 获 得 稳定 性 的 代价 是 损失 可 塑性 
(plasticity) ， 或 网 络 对 新 数据 的 反应 能 力 〈( 即 ， 网 络 不 能 学 习 新 类 别 ) 。 这 一 问题 通常 称 为 
Grossberg 稳 定性 /可 塑性 困境 (stability/plasticity dilemma)。 由 Carpenter 和 Grossberg 发 展 的 自 
适应 共振 理论 (Adaptive Resonance theory, ART) [20] 通 过 仅 当 输入 与 网 络 储存 的 类 别 原型 足 
够 相似 时 才 接 受 和 采用 原型 ， 以 此 来 克服 稳定 性 /可 塑性 困境 。 当 输入 模式 和 任何 存在 的 类 别 
原型 都 不 够 相似 时 ， 使 用 以 前 没有 执行 的 输出 CRE) 单元 以 输入 模式 作为 原型 形成 一 个 新 
的 类 别 。 因 此 ， 这 类 网 络 可 以 本 质 上 由 自身 产生 新 的 聚 类 。 如 果 没 有 剩余 这 样 的 未 执行 单元 ， 
那么 一 个 新 的 输入 不 产生 响应 ( 即 ， 一 种 外 部 拒绝 的 形式 )。 足 够 相似 的 意思 依赖 一 个 警戒 参 
数 (vigilance parameter)。 如 果 警 戒 参 数 很 大 ， 相 似 条 件 变 得 非常 严格 ， 会 形成 许多 良好 划分 
的 类 别 。 另 一 方面 ， 一 个 小 的 警戒 参数 给 出 一 个 粗 的 分 类 。 在 网 络 训练 中 ， 提 交 每 个 训练 模 
式 给 网 络 几 次 。 第 一 次 提交 一 个 模式 给 网 络 时 ， 它 可 能 放置 于 一 个 聚 类 单元 ， 而 当 它 在 后 面 
再 提交 时 ， 它 可 能 放置 在 不 同 的 聚 类 单元 。 这 归 因 于 表示 第 一 次 聚 类 的 网 络 权 值 的 变化 ， 假 
如 它 已 经 学 习 了 其 他 的 输入 模式 。 一 个 稳定 的 网 络 将 不 返回 模式 到 以 前 的 聚 类 。 

图 4-15 显 示 ART 网 络 的 一 个 基本 特征 。 稳 定性 和 可 塑性 能 够 使 用 增益 控制 单元 G1, 和 Gs 以 及 
方向 子 系统 M 单 元 的 警戒 参数 p 来 取得 ,在 注意 子 系统 内 有 一 个 称 为 特征 表示 域 F 的 处 理 单元 层 ， 
同时 有 一 个 称 为 类 别 表示 域 F, 的 输出 单元 层 。 在 这 些 域 中 有 短期 记忆 (short-term memory, STM) 
的 痕迹 ， 因 为 它们 仅 存 在 于 一 个 输入 向 量 的 一 个 相关 简单 应 用 中 。 在 F, 与 F: 之 间 自 底 向 上 和 自 
顶 向 下 的 连接 相关 的 权 值 称 为 长 期 记忆 痕迹 ， 因 为 它们 编码 那些 在 一 个 扩展 期 内 保留 为 网 络 一 
部 分 的 信息 。 兴 奋 的 信号 由 + 符号 ， 而 抑制 信号 由 符号 来 表示 。 在 学 习 过 程 中 ， 一 旦 一 个 聚 类 
单元 被 选中 ， 在 一 个 扩展 期 内 保持 自 底 向 上 和 自 顶 向 下 的 信号 。 在 此 期 间 发 生 权 值 改变 。 这 是 
共振 条 件 。ART 网 络 的 每 个 单元 能 够 从 三 个 源 中 接受 信号 。 输 入 单元 能 够 接受 来 自 输入 向 量 的 
信号， 和 来 自 E 神 经 元 或 者 增益 控制 单元 G, 的 自 顶 向 下 的 信号 。 类 似 地 ，F; 单 元 能 够 接受 来 自 
Fl 单元 、M 单 元 或 增益 控制 单元 G6, 的 信号 。F, 或 F; 单 元 必须 接受 两 个 兴奋 的 信号 才能 为 “ 开 
(on)”。 由 于 有 三 个 可 能 的 信号 源 ， 这 称 为 33 规则。 辅助 单元 M (方向 子 系统 ) 控制 警戒 匹配 。 

注意 子 系统 方向 子 系统 


增益 控制 


M 单 元 
(匹配 标准 : 
警戒 参数 ) 





输入 模式 
图 4-15 ART 体 系 结构 的 基本 特征 


网 络 神经 元 活跃 水 平 的 变化 以 及 网 络 权 值 的 变化 实际 上 由 耦合 的 微分 方程 决定 。 然 而 ， 
在 实践 中 可 以 假定 神经 元 的 活跃 水 平 通常 比 权 值 改 变 得 更 快 。 所 以 ， 该 过 程 可 以 看 为 简化 方 
式 。 特 别 是 它 应 用 于 训练 ART 网 络 的 方式 中 。ART 网 络 中 有 两 类 简化 学 习 方 法 。 它 们 区 别 在 
于 所 作 的 假设 及 性 能 特征 。 在 快速 学 习 情况 下 ， 假 定 在 共振 期 间 权 值 更 新 执行 更 快 〈 相 对 于 
一 个 输入 模式 提交 给 网 络 的 持续 时 间 )。 由 此 ， 网 络 权 值 在 每 次 试验 中 达到 平衡 。 相 反 地 ， 慢 
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学 习 情 况 下 ， 网 络 权 值 改变 比 在 快 学 习 方 式 更 惕 。 因 此 ， 权 值 在 任何 特定 试验 中 达 不 到 平衡 。 
在 这 两 类 基本 学 习 模 式 之 间 存 在 折 中 。 在 慢 学 习 情 形 下 ， 达 到 平衡 权 值 需要 更 多 (与 快 学 习 
比较 ) 的 训练 回合 。 但 是 ， 在 慢 学 习 方 式 下 所 需 计算 更 少 。 

无 监督 ART 网 络 有 三 种 基本 类 型 : ARTI (二 值 输入 向 量 ) 、ART2 (连续 值 输入 向 量 ) 和 
模糊 ART (二 值 和 连续 值 的 输入 向 量 )。 我 们 仅 给 出 ART1 网 络 的 细节 。 


4.4.1 ART1 


ART1 设 计 为 聚 类 二 值 向 量 [20]， 图 4-16 显 示 了 基本 结构 。 这 里 给 出 的 描述 ART1 网 络 运 
行 的 解释 是 基于 结构 单元 的 离散 时 间 事 件 [21]， 与 微分 方程 相反 [20]。 网 络 的 权 值 平衡 点 能 容 
易 地 决定 ， 而 无 需求 助 于 微分 方程 的 迭代 解 。F, 层 (特征 表示 域 ) MRE (类 别 表示 域 ) 在 
两 个 方向 上 是 全 连接 的 ， 输 出 节点 (神经 元 ) 之 间 也 在 两 个 方向 上 全 连接 ， 以 便 实现 胜 者 全 
得 子 系 统 。 然 而 ， 为 了 简单 起 见 ， 图 4-16 中 并 没 显 示 出 这 些 连 接 。 增 益 控制 单元 G 为 F 层 提供 
控制 信号 ， 有 两 个 状态 如果 工 作 的 输出 层 没 有 单元 是 “ 开 ” 的 ， 则 G = 1， 否 则 G = 0。 因 
此 ， 增 益 G 能 够 通过 一 个 六 值 逻辑 单元 (threshold logic unit, TLU) 实现 (参考 2.2 节 )， 其 中 
增益 计算 为 : 


i J 


G~Tranl $x -0$ z -05 (4-14) 
其 中 


1 如 果 入 >0 
0 如 果 入 <0 
假定 x 二 0， 车 输出 单元 是 “ 开 ” 状 态 , HK (4-14) 中 插 号 内 的 量 将 是 负 的 (G = 0); MRE 
有 输出 单元 处 于 开 状 态 ， 括 弧 内 的 值 将 是 正 的 (G = 1)。 


Tyinary (A) = | (4-15) 


当 获 胜 单元 /不 能 通过 警 
戒 检验 时 产生 重 置 信号 





图 4-16 ART1 网 络 的 结构 ， 其 中 忆 是 自 顶 向 下 的 权 值 (都 初始 化 为 1) ， 并 且 忆 是 自 底 向 上 的 权 值 
在 Fl 层 中 ， 单元 的 uv 状态 定义 如 下 : 


Vi Tran +t0+ 中 (4-16) 
Jal 
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如 果 增 益 G = 1， 意 味 着 没有 输出 单元 为 开 ， 并 且 式 (4-16) 的 总 和 将 是 0。 所 以 ， 如 果 输 出 向 
REDERI, Mv = 1。 如 果 x = 0, My, = 0。 另 一 方面 ， 当 G = 0 时 ， 由 于 在 输出 中 仅 
一 个 输出 单元 能 够 是 开 的 状态 ， 》 .isz) = 4，( 即 ， 单 元 是 获胜 输出 单元 且 有 = 1)， 对 于 v=1， 
xz 和 0 必须 是 1。 否 则 ， 若 x 或 六 (或 两 者 均 ) 是 0， 则 v; = 0。 总 之 ， 从 上 面 的 讨论 可 知 ， 为 了 
u= 1， 式 (4-16) 括号 内 三 项 中 至 少 两 项 必须 呈现 〈 即 ， 为 D。 这 就 是 2/3 规 则 。 

在 图 4-15 中 的 F, 层 (输出 层 ) 是 胜 者 全 得 的 竞争 层 。 在 输出 层 F: 中 ， 当 输入 向 量 第 一 次 提 
交 给 网 络 时 所 有 单元 均 断 开 ， 且 G = 1。 因 此 ， 从 前 面 的 讨论 知 输 入 向 量 在 Fi 层 复制 ， 即 ， 
v=x (= 1,2,…, nn)。 从 F 层 到 输出 单元 的 自 底 向 上 的 权 值 可 根据 下 式 计算 : 

ti(k) 
YW (4-17) 


其 中 r = 0.5, ERRA m, AMM PR ORB) 的 第 i 元 素 志 是 从 Fs 层 第 j 
单元 到 Ri 层 第 i 单 元 的 连接 权 值 。 
接着 建立 决定 在 输出 中 “获胜 ” 聚 类 的 度量 ， 从 而 确定 输入 zx 与 权 值 向 量 ! 之 间 的 匹配 程 
度 。 这 需要 计算 两 个 相似 度量 。 两 个 度量 是 必需 的 ， 因 为 ART1 结 构 中 考虑 的 是 二 值 而 不 是 双 
极 值 向 量 [22]。 第 一 个 相似 度量 计算 为 
yee 


o, = 一 一 (4-18) 


n 
T+ dt 
a 


在 可 能 的 输出 单元 中 ， 根 据 式 (4-18) 计算 出 的 最 大 值 能 够 发 现 最 接近 当前 输入 向 量 x 的 原型 
向 量 上 5。 对 于 一 个 较 小 值 z， 式 (4-18) 中 四 近似 于 输入 向 量 x 中 为 1 的 分 量 与 自 顶 向 下 权 值 向 量 
i 中 为 1 的 分 量 的 重合 个 数 和 5 中 为 1! 的 分 量 个 数 的 比值 。 当 网 络 输出 的 两 个 衰 类 具有 与 输入 x 的 
分 量 为 1 的 重 释 个 数 相 同 的 原型 向 量 ， 在 原型 向 量 中 具有 更 少 分 量 为 1 的 那个 聚 类 选择 为 获胜 
者 。 网 络 输入 * 与 所 有 的 存在 到 类 相 比较 ， 以 便 减 少 相似 性 ， 除 非 所 有 存在 的 聚 类 不 是 足够 相 
似 ， 并 不 形成 新 的 聚 类 。 对 于 由 式 (4-18) 的 相似 度量 决定 的 网 络 输出 的 第 /个 获胜 聚 类 ，C = 
0。 并 且 ， 第 二 个 相似 度量 用 于 决定 输入 x* 与 4 之 间 的 匹配 是 否 足够 好 ， 它 按 如 下 计算 


n 


> EX; 
‘= 
n 
$ 
= 


PRL MAS Rp (ERAR) 相 比 较 ， 其 中 0 和 Op 科 1。 相 似 度 量 四 与 极限 参数 p 的 比较 
在 网 络 中 通过 图 4-16 中 的 重 置 单元 按 如 下 式 子 执行 


B-Town PY -Do (4-20) 


RT. FROM YMA Su = Sota» R (4-20) 能 够 改写 成 


= P ) | 
R-RE So (4-21) 


b, (k) = 


O, = 





(4-19) 
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所 以 ， 从 式 (4-21) 我 们 看 到 当 o,>p 时 ，R = 0; mo < p 时 ，R = 1。 当 R = 0 时 ， 网 络 中 共 
振 条 件 存 在 ， 自 顶 向 下 的 权 值 ; 按 照 如 下 式 子 更 新 

ti(k + 1) = t; (k) +u(k)z; (k) [v; (k) - ti] (4-22) 
其 中 0<u(k)<1。 当 重 置 的 值 是 R = 1 时 ，F; 层 所 有 输出 单元 重 置 成 断 开 状态 ， 并 且 在 当前 输 
入 向 量 进行 处 理 时 ， 当 前 竞争 单元 将 丧失 竞争 能 力 。 当 获胜 单元 重 置 时 ， 增 益 G = 1， 选 择 另 
外 一 个 获胜 单元 。 继 续 这 个 过 程 ， 如 果 在 学 习 聚 类 中 没有 模式 与 输入 足够 相似 ， 它 们 将 逐个 
形 失 竞争 能 力 而 选择 的 获胜 单元 将 是 一 个 没有 使 用 的 单元 。 

例 4.5 “介绍 警戒 参数 如 何 影响 ART1 网 络 的 聚 类 。 图 4-17 显 示 的 字母 用 作 ART1 网 络 的 9 个 
输入 。 每 个 字母 转化 成 一 个 (31) 向 量 表示 ， 该 向 量 是 通过 “堆栈 ”7 x 5 阵列 中 的 每 个 字母 图 
像 的 连续 的 行 来 得 到 的 。 假 定 黑色 像素 为 1， 并 且 白 色 像 素 为 0。s 在 类 别 表示 域 ， 即 F (竞争 ) 
层 节 点 的 最 大 数量 ,假定 为 输入 模式 的 数 m = 9。 自 底 向 上 和 自 顶 向 下 的 权 值 分 别 如 下 初始 化 : 


ABC 
DEF 
GH I 


图 4-17 用 作 输 入 例 4.5 中 的 ART1 网 络 的 字母 


NYA Uf WN 一 


= (其 中 L > 1， 典 型 地 , L=2) t,=1 
-l+n 
在 p = O.3Hb iS RRB BANE BEDOYA BURRIS, EEL ATE ReG-2H, WEEP = 0.7 处 设置 
警戒 参数 ,将 形成 两 个 多 余 的 类 。 六 个 类 显示 在 表 4-3 中 。 

正如 表 4-2 及 表 4-3 显 示 的 结果 ， 当 警戒 参数 相当 地 小 ， 和 一 个 警戒 参数 更 高 设置 时 相 比 ， 
聚 类 显得 更 粗糙 ， 而 后 者 使 得 聚 类 变 得 更 精细 。 增 加 警戒 参数 到 p = 0.95， 每 个 模式 (字母 ) 
放置 到 自己 的 聚 类 中 ， 克 许 模式 回忆 。 





b, = 


O 为 了 在 MATLAB 中 显示 二 值 字母 图 像 ， 阵 列 位 首先 “锁定 (toggled)”， 然 后 乘 以 63。 使 用 colormap 
gray 和 image 函 数 显 示 字 母 图 像 。 在 MATLAB:0 一 黑色 ，1 一 白色 。 乘 以 63 来 放大 图 像 ， 产 生 6 位 的 灰 度 
范围 。 
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表 4-2 对 于 p = O03WARTIRKAR 





类 别 模式 (FH) 类 Fi 模式 (字母) 
1 A,B,C,G 3 H 
2 D, E, F 4 I 


表 4-3 对 于 p = 0.7 的 ART1 育 类 结果 





类 别 模式 (字母) 类 别 , 模式 (FH) 
1 A 4 E,F 
2 B,C,G 5 H 
3 D 6 I 


4.4.2 模糊 ART 和 模糊 ARTMAP 


ART1 有 几 个 与 它 相 关 的 问题 ， 例 如 ， 低 效 的 存储 能 力 (对 于 二 进 制 输入 向 量 可 能 的 最 大 
学 习 聚 类 数 是 2") 和 输入 中 的 噪声 灵敏 性 ， 以 及 其 他 一 些 例子 。Carpenter 和 Grossberg[23] 发 
展 了 用 于 模拟 (或 连续 ) 输入 的 ART2 以 克服 ART1 的 一 些 问 题 。 模 糊 ART[241 有 响应 模拟 或 
二 值 输入 模式 的 任意 序列 的 学 习 类 别 的 能 力 。 对 于 模拟 和 二 值 输入 模式 学 习 的 泛 化 都 是 通过 
使 用 模糊 集合 论 的 MIN(^) 算 符 (参看 A.8 节 ) 替代 ART1 神 经 网 络 结构 的 相交 (N) 算 符 来 实 
现 的 。 在 二 值 情况 下 ，MIN 算 符 退化 为 相交 算 符 ， 从 而 在 响应 二 值 输入 模式 时 ， 模 糊 ART 退 
化 为 ART1。 在 模糊 ART 中 ， 输 入 向 量 按照 一 个 导致 对 称 理论 的 补 码 编码 过 程 规范 化 ， 在 对 称 
理论 中 模糊 集合 论 [25] 的 MIN(^) 算 符 与 MAX(v) 算 符 执行 互补 作用 [24]。 补 码 编 码 在 保持 振幅 
信息 的 同时 完成 输入 模式 的 规范 化 。 

模糊 ARTMAP[26] 是 ARTMAP (Adaptive Resonance Theory Mapping， 自 适应 共振 理论 映 
射 )[27] 神 经 网 络 结构 的 推广 。ARTMAP 也 称 为 预测 ART 网 络 ， 对 于 给 定 的 输入 模式 (向量 ) 
流 它 能 够 快速 且 稳 定 地 在 线 识 别 学 习 和 假设 检验 。 图 4-18 给 出 了 模糊 ARTMAP 结 构 。 从 图 中 
可 着 出 ， 该 结构 由 两 个 模糊 ART 模 块 构 成 。 在 网 络 的 监督 训练 过 程 中 ，ART, 接 收 到 输入 模式 
{a 中 } 流 ，ART, 接 收 输出 模式 {5 (其 中 b”" 是 给 定 a”” 的 正确 响应 )。ART。 和 ART, 模 块 通过 联 
想 学 习 网 络 和 一 个 确保 自动 系统 实时 运行 的 内 部 控制 器 连接 在 一 起 。 设 计 控制 器 使 得 它 创建 
满足 精度 标准 所 必需 最 小 数量 的 ART, 识 别 分 类 (或 “ 隐 茂 单元”)。 这 个 过 程 是 通过 实现 一 个 
极 小 极 大 学 习 规 则 来 完成 的 ， 极 小 极 大 学 习 规 则 能 够 使 ARTMAP 系 统 快速 、 有 效 且 准确 地 学 
习 ， 因 为 该 系统 结合 最 小 化 预测 误差 和 最 大 化 预测 的 泛 化 性 能 。 这 种 过 程 在 样 例 学 习 (trial- 
by-trial) 基础 上 使 用 局 部 水 平 操作 ， 将 自动 成 功 预 测 分 类 的 大 小 。 这 个 过 程 通过 将 ART, 的 警 
戒 参 数 p, 增 加 修正 ART, 预 测 误差 所 必须 的 最 少数 量 来 执行 。 警 戒 参 数 p. 的 较 低 值 将 导致 形成 
BAS AR ( 较 低 p, 值 将 导致 较 宽 的 推广 和 更 高 的 编码 压缩 )。 当 发 生 ART, 预 测 错 误 时 ， 
ART, 根 据 利 用 匹配 一 跟踪 (match-tracking) 机 制 [27] 初 始 化 假设 检验 所 必须 的 最 小 数量 来 增 
加 p,。 匹 配 跟 踪 给 出 了 用 来 修正 预测 误差 所 需 最 小 值 的 推广 。 可 以 通过 运用 输入 数据 集 的 不 同 
序列 的 多 次 训练 网 络 来 获得 预测 性 能 的 提高 。 这 种 “投票 策略 ”是 基于 观察 到 ARTMAP 快 速 
学 习 通 常 对 于 确定 训练 集 的 不 同 顺序 导致 不 同 自 适应 权 值 和 识别 分 类 〈 甚 至 是 对 于 不 同 刺 激 
产生 相似 预测 性 能 ) 。 模 糊 ARTMAP 的 性 能 用 来 与 做 套 广义 范例 (nested generalized exemplar, 
NGE) [28, 29] 和 模糊 最 小 最 大 分 类 器 (FMMC) [30] 的 性 能 相 比较 。 

侧 向 启动 自 适 应 共振 理论 (laterally primed adaptive resonance theory, LAPART) [31] 能 
完成 响应 输入 向 量 为 静态 数据 和 顺序 数据 的 识别 分 类 和 多 维 映射 的 增 量 式 (incremental) 监 
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督学 习 。 在 [31] 中 ，Healy 等 人 通过 验证 从 以 往 经 验 推断 出 的 模式 对 来 强调 LAPART 在 识别 系 
列 相似 模式 中 的 应 用 。LAPART 结 构 由 相互 连接 的 ART 网 络 构成 ， 这 种 相互 连接 使 LAPART 
能 从 一 种 模式 类 中 推断 出 另 一 种 模式 类 ， 以 便 形 成 一 个 预测 序列 。LAPART 基 于 当前 模式 的 
识别 预测 下 一 种 模式 类 ， 然 后 当 新 数据 可 以 利用 时 检验 该 预测 。 模 糊 LAPART[32，33] 是 广义 
的 LAPART 结 构 ， 网 络 可 以 有 模拟 的 和 二 值 的 输入 。 为 了 噪声 输入 集 的 有 效 编码 ， 在 模糊 
LAPART 中 融合 具有 快速 执行 和 慢 速 重 编码 选项 的 慢 速 学 习 。Carpenter[34] 已 经 发 展 了 一 类 用 
于 学 习 、 识 别 和 预测 具有 任意 分 布 式 编码 表示 的 ART 模 型 。 这 些 分 布 式 网 络 综合 了 胜 者 全 得 
的 ART 网 络 的 快速 稳定 学 习 的 能 力 和 多 层 感知 器 的 抗 噪声 和 压缩 编码 的 能 力 。 


映射 域 prob 





图 4-18 模糊 ARTMAP 结 构 
习题 
4.1 生成 2000 个 随机 向 量 xE 咒 的 例子 ， 该 随机 向 量 的 概率 密度 函数 定义 如 下 : 


(xy - tt ex 
= 3 27det(O,) 中 


1 1 laron 
Saag” 7T) Q x»)| 


-a -x7 Q(x- x, | 


其 中 


1 


0.1 0 
0 04 


0.5? 0 
o -| 0 a a 


| x, =[1 1] 


设计 有 100 个 神经 元 的 Kohonen SOM, ， 神 经 元 组 织 在 一 个 正方 形 和 一 个 六 角形 网 格 中 实 
现 输入 向 量 样 例 的 分 类 。 画 出 神经 元 的 最 后 位 置 ， 把 它们 和 输入 向 量 样 例 的 散 列 图 比较 。 
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对 于 该 问题 写 一 个 计算 机 程序 来 补充 Kohonen SOM, 
生成 1000 个 二 维 向 量 下 = [x x2 … xioom] E 和 R“"”， 两 个 分 量 都 选 自 一 个 均匀 分 布 。 第 一 
分 量 必须 是 零 均 值 且 方 差 为 3(0 = 3); 第 二 个 分 量 必须 是 零 均值 且 有 单位 方差 (0? = 1), 
(a) 使 用 如 下 尔 数 在 x 一 y 平 面 内 画 出 随机 向 量 : 
plot(X(1,:),X(2,:),'+'), axis([-4 4 -4 4]) 
(b) 设计 有 15 个 神经 元 的 Kohonen SOM， 神 经 元 排列 成 3x 54W ER, 
(c) 网 络 收敛 需要 多 少 训练 回合 ? 
提示 : 在 解 这 个 问题 时 可 以 使 用 MATLAB 神 经 网 络 工 具 箱 中 的 initsm，nbman 和 
trainsm 这 三 个 图 数 。 
(a) 生成 两 个 高 斯 二 维 随机 向 量 集 。 它 们 都 有 方差 o” = 0.5。 但 是 ， 第 一 个 集 的 中 心 在 
(5, 0) ， 第 二 个 集 的 中 心 在 (0, 5)。 在 MATLAB 内 使 用 如 下 方式 来 生成 数据 : 
X1N=sqrt (0.5)*randn(2,1000); 
X1N(1, :)=X1N(1,:)+5*ones(1,1000); 


X2N=sqrt (0.5) *randn(2,1000); 
. X2N(2,:)=X2N(2,:)4+5*ones(1, 1000); 









提交 这 些 随机 向 量 给 一 个 Kohonen SOM， 在 确定 网 络 已 经 达到 收敛 后 观察 映射 的 拓扑 
排序 。 假 定 SOM 的 梯 格 结构 是 有 36 个 神经 元 的 正方 形 。 从 这 些 结果 你 能 推断 出 什么 ? 
(b) 与 部 分 (a) 的 问题 相似 ， 生 成 的 随机 向 量 取 自 具有 均匀 分 布 的 随机 数 。 这 两 个 具有 
1000 个 二 维 向 量 的 集合 都 有 方差 o = 0.5， 并 且 中 心 分 别 设置 在 (5, OMO, 5)。 提 交 这 
些 向 量 给 一 个 Kohonen SOM， 在 确定 网 络 已 经 达到 收敛 后 观察 映射 的 拓扑 排序 。 再 假 
定 SOM 的 梯 格 结构 是 有 36 个 神经 元 的 正方 形 。 从 这 些 结果 你 能 推断 出 什么 ? 注意 : 留 
意 你 怎样 产生 随机 向 量 的 。 参 考 A.7.4 节 中 均匀 分 布 的 细节 。 
与 例 4.2 相 似 ， 这 个 问题 探索 Kohonen SOM 的 拓扑 排序 属性 ， 也 就 是 ， 一 个 高 维 输入 空 
间 (三 维 数据 ) 映射 到 一 个 抽象 的 二 维 表示 。 产 生 三 个 三 维 的 高 斯 随机 向 量 集 。 所 有 三 
个 向 量 集 都 具有 方差 o = 0.1。 第 一 个 向 量 集 的 中 心 在 (6, 0, 0), 第 二 个 中 心 在 (0, 6, 0)， 
第 三 个 在 (0, 0, 6)。 设 计 一 个 带 有 64 个 神经 元 的 二 维 正方 形 梯 格 结构 的 Kohonen SOMBR 
射 。 训 练 回合 的 合理 数量 是 多 少 ， 才 能 确保 网 络 收敛 ? 最 后 的 二 维 上 映射 看 起 来 像 什么 
( 画 出 结果 )? 你 能 够 推断 出 什么 ? 
与 问题 4.4 相 似 ， 但 包括 附加 的 高 斯 数据 集 。 特 别 地 ， 产 生 4 个 随机 的 高 斯 向 量 集 ， 每 个 
都 有 方差 of = 0.1。 设 置 这 些 相继 的 高 斯 向 量 集 的 中 心 分 别 为 (7, 0,7)，(7, 7,7)，(0, 7， 
7)，(0, 0, 7)。 下 面 的 MATLAB 命 令 将 产生 数据 : 


%variance = 0.1, centered at (7 07) 
Xlesqrt (0.1) *randn(3,1000); 
Xl=detrend(Xi‘)‘; 
X1(1,:)=X1(1,:)+7*ones(1,1000); 
X1(3,:)=X1(3,:)+7*ones(1,1000); 
%variance = 0.1, centered at (7 7 7) 


X2=ssqrt (0.1) *randn(3,1000); 
X2=detrend(X2')'; 
X2(1,:)=X2(1,:)+7*ones(i,1000); 
X2(2,:)=X2(2,:)+7*ones(1,1000); 
X2(3,:)=X2(3,:)+7*ones(1,1000); 
variance = 0.1, centered at (07 7) 





O 参考 A.7.4 节 关于 均匀 分 布 的 说 明 。 
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X3esqrt (0.1})*randn(3,1000); 
X3=detrend (X3‘)‘; 
X3(2,:)=X3(2,:)+7*ones(1,1000); 
X3(3,:)=X3(3,2)+7*ones(1,1000); 


%variance = 0.1, centered at (0 07) 
X4=sqrt (0.1) *randn(3,1000); 
X4=detrend(x4’')’; 
X4(3,:)=X4(3,:)+7*ones (1, 1000); 





设计 一 个 带 有 64 个 神经 元 的 二 维 正方 形 梯 格 结构 的 Kohonen SOMA. IAEA A He 
数量 是 多 少 ， 才 能 确保 网 络 收敛 ? 最 后 的 映射 看 起 来 像 什么 〈 画 出 结果 ) 2 你 能 够 推断 
出 什么 ? 

判别 两 个 重合 的 二 维 高 斯 分 布 模式 。 即 ， 有 两 类 高 斯 分 布 模式 ， 标 记 为 类 别 1 和 类 别 2。 
事件 的 两 个 集合 设计 为 C, 和 C,, ， 在 MATLAB 中 按 如 下 方式 产生 两 个 向 量 集合 。 


Xl=sqrt (0.1) *randn(2,1000); 


X2(1,:)=2*randn(1,1000)+5*ones (1, 1000); 
X2(2,:)=2*randn(1,1000); 





这 将 产生 两 个 向 量 集合 。(1) 在 集合 CA, MFRS, EHAA 7 =(0 0] 和 方差 
为 o? = 0.1 的 二 维 向 量 集 。 因 此 ， 该 类 别 (xz1Cu ) 的 条 件 概率 密度 函数 〈 参 看 A.7.4 节 ) 有 
均值 x, MAH o. (2) 在 集合 C, 内 ， 对 于 类 别 2， 是 一 个 均值 为 丈 =15 0] 和 方 
差 o2 = 4 的 二 维 向 量 集 。 从 而 ， 访 类别 zz*(xz1C。 ) 的 条 件 概率 密度 函数 有 均值 元 和 方差 oz 。 
(a) 用 不 同 的 符号 画 出 两 个 随机 向 量 集合 ， 并 且 确 定 存在 多 少 重合 的 量 。 

(b) 使 用 在 一 个 正方 形 内 有 25 个 神经 元 的 Kohonen SOM, 充分 训练 SOM， 并 且 画 出 权 值 

向 量 。 你 能 从 xy 平 面 的 构成 确定 什么 ? 
在 例子 4.3 中 ， 使 用 7 个 四 维 二 值 向 量 决定 最 终 权 值 向 量 


1.2996 _0.1881 
0.4952 1 

"i= jo4gs2| 27] 1 
0.4848 0.3603 


(在 500 个 训练 回合 后 ) 使 用 表 4-1 中 的 LVQ1 程 序 。 给 定 下面 四 个 在 训练 过 程 中 没有 使 用 
过 的 向 量 ， 决 定 每 个 向 量 属于 的 类 别 
Xtes 1 = [1, 0, 1, OF Xiest2 = [0, 0, 1, OF" 
Xe 3 = [0, 1, 0, 017” Xes4 = [1 1, 0, 1 
考虑 图 4-19 描 述 的 分 类 问题 。 
(a) 设计 一 个 LVQ 网 络 实现 分 类 。 
(b) 按照 如 下 方法 测试 网 络 设置 的 分 类 边界 ， 
© 在 比 图 4-19 中 网 格 更 细 的 网 格 上 生成 测试 输入 点 。 
。 提交 测试 输入 点 给 网 络 。 
* 让 网 络 实现 分 类 。 
“产生 显示 不 同 分 类 区 域 的 图 。 
给 定 下面 带 有 相关 类 型 的 输入 向 量 集合 : 
向 量 类 型 
x, = [0,0,1] (对 应 于 1 的 二 值 表示 ) 1 (奇数 ) 
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140 ”第 一 部 分 PAIR REMER ADAPA A R HARF IAM 


W 410 


W 4.11 


W 4.12 
BO 4.13 


M 414 


x, = [0, 1, 077 (对 应 于 2 的 二 值 表示 ) 2 (偶数 ) 

=[0,1,1] (对 应 于 3 的 二 值 表示 ) 1 (奇数 ) 
x, = [1, 0, 0] (对 应 于 4 的 二 值 表示 ) 2 (偶数 ) 
xs=[1,0,1] (对 应 于 5 的 二 值 表示 ) 1 (奇数 ) 


49 O eee o 
太太 het te Qk tet 
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+2008 Be O” 
+2800 0 8M ** 
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图 4-19 非 线 性 可 分 离 性 类 型 的 LVQ 分 类 


向 量 类 型 
xe=[1,1,0] (对 应 于 6 的 二 值 表示 ) 2 (偶数 ) 
x7=[1,1,1] (对 应 于 7 的 二 值 表示 ) 1 (奇数 ) 


利用 上 面 给 出 的 数据 训练 一 个 LVQ 网 络 ， 你 能 得 到 什么 结论 ? 

在 完成 问题 4.3 的 部 分 (a) 后 ， 使 用 图 4-13 中 的 混合 自 适 应 模式 分 类 系统 来 微调 聚 类 ， 
利用 SOM 的 权 值 向 量 作为 LVQ 网 络 的 输入 。 对 用 于 训练 LVQ 网 络 的 SOM 权 值 向 量 开发 
一 种 方法 确定 恰当 分 类 数 。 从 你 的 结果 能 得 到 什么 结论 ?对 于 问题 4.3 的 部 分 (b) 重复 


提示 : 你 可 以 直接 使 用 表 4-1 的 LVQ1 程 序 ， 或 以 随机 初始 化 权 值 向 量 来 修改 它 。 


利用 图 4-13 所 示 的 混合 自 适应 模式 分 类 系统 执行 问题 4.10 中 描述 的 同样 过 程 ， 使 用 问题 

4.5 得 到 的 SOM 输 出 结果 。 

重 做 问题 4.11， 但 使 用 问题 4.6 的 SOM 输 出 结果 。 

(a) 在 4.4.1 节 中 介绍 了 ART1 网 络 学 习 的 细节 。 基 于 该 节 的 讨论 ， 写 一 个 用 于 训练 ARTI1 
网 络 的 算法 步骤 。 

(b) 根据 本 问题 部 分 (a) 中 你 开发 的 算法 ， 写 一 个 MATLAB 函 数 实现 用 于 ART1 学 习 的 
算法 。 

本 问题 是 问题 4.5 的 扩展 。 

(a) 使 用 例 4.5 罗 列 的 方法 生成 字母 表 的 26 个 字母 。 例 如 ， 字 母 Z 的 〈 列 ) 向 量 表示 在 
MATLAB 中 可 得 到 如 下 所 示 : 


4.15 
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Lletter= [ 





注意 : 参考 有 关 在 MATLAB 中 描绘 字母 图 像 的 4.4.1 节 中 的 脚注 。 

(b) 使 用 在 问题 4.13 (b) 中 的 警戒 参数 设置 为 p = 0.3 的 ART1 MATLAB 函 数 来 分 类 字母 表 
的 26 个 字母 。 形 成 多 少 个 聚 类 ? 哪个 字母 分 类 到 哪个 聚 类 中 ? 增加 警戒 参数 为 = 0.7。 
这 怎样 影响 结果 ? 使 得 所 有 26 个 字母 有 自己 的 聚 类 单元 的 警戒 参数 最 小 值 是 多 少 ? 

图 4-20 显 示 9 个 不 同 图 像 ， 能 够 通过 使 用 例 4.5 中 描述 的 相同 程序 来 向 量化 。 如 例 4.5 中 ， 

假定 黑色 像素 是 1， 白 色 像 素 是 0。 

注意 : 参考 有 关 在 MATLAB 中 描绘 字母 图 像 的 4.4.1 节 中 的 脚注 。 

(a) 使 用 问题 4.13 (b) 中 你 写 的 ART1 MATLAB 函 数 ， 用 警戒 参数 的 不 同 值 试验 ， 并 且 
讨论 结果 ， 你 能 得 到 什么 结论 ? 

(b) 让 警戒 参数 足够 大 ， 使 得 在 ART1 网 络 的 输出 中 创建 9 个 分 离 的 聚 类 。 选 择 第 一 个 和 
第 五 个 图 案 ， 在 图 像 中 锁定 10 个 随机 选择 的 位 。 提 交 这 些 损 坏 的 图 像 给 训练 好 的 网 
络 ， 网 络 还 能 恰当 分 类 图 像 吗 ? 


123456789 10 








图 4-20 在 问题 4.15 中 使 用 ART1 神 经 网 络 的 聚 类 图 像 
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第 5 章 递归 网 络 和 时 间 前 馈 网 络 


5.1 概述 


本 章 涉 及 递归 神经 网 络 。 通 常 ， 递 归 网 络 视 为 拓扑 结构 上 含有 闭合 回路 的 网 络 。 虽 然 本 
章 考虑 的 时 间 前 馈 网 络 也 是 递归 网 络 ， 但 我 们 将 对 时 间 前 馈 网 络 和 非 多 层 前 馈 网 络 加 以 区 分 。 
因此 本 章 包括 两 部 分 : 继 5.2 节 概述 递归 神经 网 络 之 后 ， 本 章 第 一 部 分 将 介绍 离散 时 间 霍 普 非 
尔 德 网 络 (5.3 节 )、 模 拟 退 火 (5.4 节 ) 和 玻 尔 兹 曼 机 (5.5 节 )。 继 5.6 节 概述 时 间 前 馈 网 络 之 
后 ， 第 二 部 分 将 介绍 简单 递归 网 络 (simple recurrent network, SRN) (也 称 Elman 网 ) (5.7 节 )、 
时 延 网 络 (5.8 节 ) 和 分 布 式 时 滞 前 馈 神 经 网 络 (5.9 节 )。 


5.2 递归 神经 网 络 概述 


先前 研究 的 前 馈 网 络 完成 从 输入 空间 到 输出 空间 的 固定 权 值 映射 。 因 为 网 络 有 固定 权 值 ， 
从 而 任意 神经 元 的 状态 仅 由 该 单元 的 输入 决定 ， 而 不 是 由 初始 状态 和 过 去 的 状态 决定 。 由 于 
网 络 不 具备 动态 性 ， 网 络 神经 元 对 初始 状态 和 过 去 状态 的 无 关 限 制 了 这 些 网 络 。 为 了 使 初始 
状态 和 过 去 状态 能 够 介入 一 系列 处 理 ， 递 归 神 经 网 络 利用 反馈 方法 。 由 于 递归 神经 网 络 也 以 
使 用 非 线性 处 理 单 元 为 其 特征 ， 因 此 ， 这 样 的 网 络 是 非 线性 动态 系统 。 递 归 网 络 的 另 一 重要 
特征 是 对 个 别 设备 故障 的 相对 不 灵敏 性 〈 容 错 ) 。 堆 普 菲 尔 德 称 这 一 特性 为 软 故障 设备 [1]。 由 
于 递归 网 络 有 反馈 路 径 ， 它 们 是 顺序 的 而 非 组 合 的 ， 即 网 络 能 演示 时 间 性 行为 。 这 些 网 络 可 
能 是 全 连接 的 。 换 言 之 ， 网 络 神经 元 之 间 所 有 可 能 的 连接 都 是 允许 的 。 而 且 ， 递归 神 经 网 络 
的 连接 权 值 可 以 是 对 称 或 不 对 称 的 。 在 对 称 情况 下 ， 连 接 权 值 w = wj Vi, j， 而 在 非 对 称 情况 
下 ,wy wi Yi, J 

在 对 称 情况 下 ， 网 络 总 是 收敛 于 稳定 点 吸引 子 (稳定 平衡 点 或 状态 )。 但 是 这 些 网 络 不 能 
提供 模式 的 时 间 顺 序 。 在 非 对 称 情 况 下 ， 网 络 的 动态 性 能 除了 显示 出 稳定 状态 外 ， 还 显示 出 
极限 环 和 混沌 [2]， 并 且 如 果 恰 当选 择 权 值 ， 网 络 就 能 产生 并 储存 时 空 模式 。 这 些 类 型 的 网 络 
在 高 级 智能 系统 中 (如 符号 推理 ) 起 着 重要 作用 。 递 归 神 经 网 络 的 发 展 多 次 被 视 为 是 受到 统 
计 力 学 概念 的 启发 {3, 4]。 


5.3 堆 普 菲尔德 联想 记忆 


在 霍 普 菲尔德 的 经 典 论文 [1] 中 ， 讲 述 到 由 大 量 简单 元 素 (神经 元 ) 构成 的 物理 系统 能 展 
示 出 集体 涌现 特性 。 简 单 说 ， 系 统 的 集体 特性 不 能 从 单元 素 出 现 ， 但 是 能 从 系统 的 局 部 单元 
相互 作用 中 出 现 。 他 所 描述 的 具有 集体 特性 的 模型 可 以 产生 按 内 容 寻 址 的 存储 器 ， 该 存储 器 
能 根据 部 分 信息 正确 地 产生 完整 存储 。 他 还 描述 了 其 他 的 集体 涌现 特性 ， 如 相似 性 识别 、 泛 
化 、 分类、 纠 错 和 时 序 记 忆 的 能 力 。 

我 们 讨论 标准 离散 时 间 霍 普 菲 尔 德 神经 网 络 。 由 于 具有 反馈 连接 ， 故 认为 该 标准 离散 时 
间 网 络 是 递归 网 络 ， 而 霍 普 菲尔德 网 络 也 可 以 看 成 是 非 线 性 联想 记忆 (参看 3.2 节 ) 或 内 容 可 
好 址 存储 器 。 打 算 利 用 该 网 络 执行 数据 储存 和 检索 的 功能 。 但 是 ， 该 网 络 在 动态 稳定 的 环境 
中 储存 信息 。 对 有 噪声 (或 不 完整 ) 的 储存 模式 输入 的 情况 ， 网 络 将 检索 储存 在 存储 器 中 的 
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模式 。 内 容 可 寻 址 存储 器 即使 对 于 提交 的 不 完整 的 或 有 错误 的 输入 数据 ， 也 能 可 靠 地 检索 存 
储 器 模式 ， 在 这 个 意义 上 内 容 可 寻 址 存储 是 纠 错 存储 器 。 

作为 内 容 可 寻 址 储存 器 (CAM) ， 霍 普 非 尔 德 网 络 的 基本 特性 是 执行 映射 功能 。 然 而 ， 这 
是 动态 映射 。 在 讨论 霍 普 菲 尔 德 网 络 的 细节 之 前 需要 解释 一 些 基 本 概念 。 吸 引子 是 系统 从 初 
始 条 件 开 始 随时 间 演 变 到 的 状态 。 每 一 吸引 子 有 与 之 关联 的 初始 条 件 集 。 初 始 条 件 集 开 始 演 
变 到 特定 的 吸引 子 终 止 。 特 定 吸引 子 的 初始 条 件 集 称 为 吸引 会 。 在 状态 空间 中 ， 如 果 吸 引子 
是 单 点 ， 则 称 为 固定 点 。 吸 引子 可 能 有 更 复杂 的 结构 ， 如 极限 环 。 

原型 状态 (原型 记忆 ) 岂可 以 由 动态 系统 的 图 定 〈 稳 定 ) ARR. Alto, h= 1, 2，… 门 
可 以 映射 到 网 络 的 稳定 点 上 。 该 映射 可 表示 为 OI, ， 其 中 向 前 的 方向 〈 由 左 到 右 ) 代表 
编码 过 程 ， 向 后 的 方向 (由 右 到 左 ) 代表 解码 过 程 。 因 此 ， 霍 普 非 尔 德 网 络 是 异步 非 线性 动 
态 系统 ， 系 统 的 相 空 间 由 稳定 点 构成 ， 这 些 稳定 点 是 网 络 原 型 状态 (RARR). AREE 
普 非 尔 德 在 论文 中 讨论 的 集体 出 现 特 性 [1]。 图 5-1 解 释 了 和 霍 普 非 尔 德 联想 记忆 完成 的 状态 空间 
编码 /解码 过 程 。 在 回忆 过 程 中 ， 传 送 模式 给 网 络 。 假 定 该 模式 包含 属于 网 络 原型 记忆 之 一 的 
信息 。 输 入 模式 也 可 仅 包含 与 原型 记忆 有 关 的 部 分 信息 。 对 输入 的 响应 为 相 空间 的 开始 点 ， 
如 果 开 始点 “接近 ”记忆 检索 的 稳定 点 ， 则 动态 系统 将 随时 间 演 变 并 且 收 敛 于 该 记忆 状态 
( 即 系统 状态 的 相 空 间 流 收敛 于 该 记忆 状态 ) 。 从 而 动态 系统 产生 适当 记忆 。 因 此 ， 霍 普 菲 尔 
德 神经 网 络 执行 在 动态 稳定 环境 中 储存 信息 的 功能 。 





原型 记忆 
状态 空间 


存储 向 量 


空间 


图 5-1 用 霍 普 非 尔 德 相 关 记忆 神经 网 络 执行 编码 /解码 的 过 程 


离散 时 间 霍 普 非 尔 德 网 络 的 神经 元 在 架构 上 采用 了 MecCulloch-Pitts 模 型 [53]， 我 们 仅 考虑 
对 称 硬 限制 激活 函数 (参照 2.3 节 )。 因 此 ， 网 络 任意 时 间 的 状态 只 能 是 +1 或 二 1。 运用 图 2-12 
所 示 的 神经 元 离散 时 间 霍 普 非 尔 德 模型 ， 可 以 构建 图 5-2 所 示 的 霍 普 非 尔 德 神经 网 络 。 

对 于 图 5-2 中 的 每 一 神经 元 ， 线 性 组 合 器 的 输出 可 表示 为 


v = Dvir - 9; =w; x-9; 对 于 i=1,2,…,n (n 个 神经 元 ) (5-1) 
f= 


其 中 x = [x,, xy HERA (参照 A.2.12 节 )，09 是 外 部 应 用 阅 值 。 对 于 i = 1, 2, …, n， 每 
一 线性 组 合 器 输出 传送 给 对 称 硬 限制 激活 函数 和 单元 延迟 元 素 。 单 元 延迟 输出 x; (i = 1, 2,…, n) 
是 反馈 给 神经 元 的 输入 。 但 例外 的 是 神经 元 的 输出 不 反馈 给 自己 。 因 此 ， 图 5-2 中 i = /时 
wy = 0。 每 一 神经 元 的 状态 可 表示 为 

+1 对 于 uv;>0 


sesame = 对 于 w<0 (5-2) 
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x(k) 团 
x(k) 
国 
x(k) E 
= 
| x(k +1) 
x(k +1) 
x3(k +1) 
x(k +1) 
Wan 


图 5-2 离散 时 间 餐 普 非 尔 德 神经 网 络 (z-' = 单位 延迟 ) 。 假 设 w = w, (对 称 权 值 矩阵 ) ， 对 
Fi=/Aiw,=0 (也 就 是 ， 自 身 没有 神经 元 输出 反馈 ， 或 没有 “自我 闭环 ”) 
其 中 j =1,2,.…,n, sgn(-) 是 符号 函数 (参照 2.3 节 )。 Lv, =0, 则 将 x 的 值 定义 为 它 的 先前 
状态 。 可 以 将 阔 值 向 量 写 为 6 = [6,, 96,, …, 9,]。 因 此 , 式 (5-1) 的 向 量 和 矩阵 形式 为 


v= Wxr—90 (5-3) 
其 中 网 络 权 值 矩阵 为 
0 W2 WB Wig Win 
Wai 0 Wo, Wa Wan 
A nil (5-4) 
Wat Waiz Wass O wn 
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KK (5-4) 中 每 一 行 是 图 $-2 所 示 的 每 一 神经 元 的 相关 权 值 向 量 。 网 络 输出 的 向 量 和 矩阵 形式 可 写 为 
x(k + 1) = sgn{Wx(k) — 6] (5-5) 
或 标量 形式 为 


shat) = sen Sy -4) (5-6) 
其 中 i= 1 2, …, mn。 有 两 个 与 霍 普 非 尔 德 网 络 相关 的 基本 操作 阶段 : 储存 阶段 和 回忆 阶段 。 

在 储存 阶段 ， 联 想 记 忆 (内 容 可 寻 址 记忆 ) 是 根据 3.2.2 节 关于 相关 和 矩阵 记忆 的 外 积 规则 
建立 的 。 假 定 r 个 原型 记忆 的 集 为 { 遇 , 和}, …, 申 }， 网 络 权 值 矩 阵 根据 下 式 计算 


lx r_r 
WD A -77 (5-7) 


其 中 比例 因子 1 是 为 了 方便 ， 第 二 项 (ro 为 从 原型 记忆 向 量 的 外 积 和 中 减 去 ， 为 满足 
wi = 0( = 用 。 如 3.2.2 节 所 述 ， 式 (5-7) 是 Hebb 学 习 的 一 种 形式 (参照 2.8.2 节 )。CAM (AR 
可 寻 址 记忆 器 ) 建立 之 后 ， 回 忆 阶 段 包括 传送 测试 输入 向 量 x' CORA, WALA AR 
知 输入 值 的 网 络 状态 x(k)， 即 x(PD)j-o = x(0) = x'"。 运 用 表达 式 (5-6)， 状 态 向 量 x() 元 素 随机 
地 (异步 地 ) 一 次 更 新 一 个 ， 直 到 向 量 元 素 没 有 明显 变化 为 止 。 当 满足 这 个 条 件 时 ， 这 个 稳 
E (平衡 ) 状态 (或 系统 的 相 空 间 固 定点 ) x 就 是 网 络 输出 。 

离散 时 间 霍 普 菲 尔 德 神 经 网 络 有 很 多 种 ， 但 是 基于 上 面 的 讨论 ， 其 中 一 种 离散 时 间 霍 普 
菲尔德 神经 网 络 的 算法 的 操作 细节 概括 如 下 : 





w= Ln Dy bes (5-8) 


步骤 2 AXKRRARHAPMARE, EL=-ONKREMAHRKAOMHLESER RMA AY’, B 
x(0) =x’ (5-9) 
步骤 3 网 络 的 状态 元 素 x( 有 ) 根 据 式 (5-6) 进行 异步 更 新 ， 即 ， 


xaz sen wx -0 (5-10) 
= 


这 种 蔡 代 过 程 一 直 进 行 到 状态 向 量 元 素 不 再 改变 为 止 。 当 满足 这 一 条 件 时 ， 网 络 输出 平衡 状态 ， 即 

A (5-10) 产生 
x=x, (5-11) 
口 


与 霍 普 非 尔 德 网 络 相关 的 主要 问题 之 一 是 可 能 产生 伪 平 衡 状态 9 (或 伪 吸 引子 ) [4, 6]。 
这 样 的 稳定 平衡 状态 (或 者 系统 相 空间 的 固定 点 ) 并 不 是 原型 记忆 设计 集 的 一 部 分 。 在 霍 普 
非 尔 德 网 络 中 存在 伪 吸 引子 的 原因 有 儿 点 : (1) 伪 吸 引子 产生 于 奇数 个 模式 的 线性 组 合 [6]， 
(2) 对 于 存储 在 内 容 可 寻 址 存储 器 中 的 大 量 原型 记忆 ， 能 量 函数 存在 局 部 最 小 值 。 这 些 局 部 





O 擅 平 衡 状态 也 指 镜 旋 转 状态 [7, 8]。 
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最 小 值 与 网 络 结构 的 任何 原型 记忆 部 分 无 关 。(3) HEK AERE R CRE E A 
区 (x) 也 能 产生 伪 吸 引子 。 在 Li et al.[9] 中 ,分 析 了 与 蕉 普 菲 尔 德 神经 网 络 基本 结构 相同 的 一 
类 网 络 。 这 篇 论文 中 所 谈 及 的 设计 方法 是 在 一 阶 线性 常 微 分 方程 组 基础 上 ， 它 的 状态 空间 定 
义 在 闭 式 超 立方 体 上 。 当 这 些 方 程 组 的 解 存 在 于 超 立 方 的 边界 上 时 ， 称 系统 为 饱和 状态 。 前 
面 讲述 的 方法 比 著 名 的 霍 普 非 尔 德 模型 [9] 更 易于 分 析 、 综 合 和 实施 。 设 计 方 法 的 一 个 主要 优 
点 是 使 伪 吸 引子 数量 达到 最 小 。 如 MATLAB 神 经 网 络 工具 箱 [10] 有 建立 在 该 方法 基础 上 的 函 
数 newhop。 函 数 newhop 利 用 所 有 输入 目标 向 量 (网 络 记 忆 的 模式 ， 仅 以 双 极 形式 ) 来 设计 
网 络 。 

因为 霍 普 菲尔德 网 络 具 有 对 称 权 值 且 不 具有 神经 元 自 环 ， 可 以 定义 能 量 函 数 ， 或 李 雅 普 
ABR (参照 A.4 节 ) [11]。 同 样 因为 对 稳定 平衡 状态 的 收敛 流 有 CAM 的 相关 特征 ， 因 此 ， 
希望 有 一 个 方法 来 执行 收敛 分 析 。 确 保 状 态 空间 流 稳 定 的 数学 条 件 是 w; = wi(i 关 让， 并 且 wj= 0 
(i = 让 ( 权 值 对 称 ， 且 不 存在 神经 元 自 环 )。 收 全 证 明 来 自 所 选择 的 适当 的 能 量 函 数 ， 该 能 量 
函数 总 是 随 任 何 状态 变化 (单调) 下降 的 。 高 散 时 间 霍 普 非 尔 德 神经 网 络 的 能 量 函 数 由 [11, 12] 可 


写 为 
DD (5-12) 
2 Uj ot Ei 
il j= i= i= 
fej 


其 中 x 是 网 络 的 状态 ,x' 是 传送 给 网 络 的 外 部 应 用 输入 ，W = iw De AB, OE RIAL TH] 
OO NEL 


\ 


se Boe Xj +X; - * fas (5-13) 


仅 当 一 次 仅 有 一 个 神经 元 改变 其 状态 时 ， 关 系 式 (5-13) AM. RHEE RBMAMIAR, 
网 络 任意 状态 下 的 符号 变化 由 式 (5-13) 括号 内 项 的 相同 符号 变化 完成 。 因 此 ， 能 量 函 数 的 
改变 A 多 总 是 负 的 ， 从 而 能 量 总 是 减少 的 (这 上 暗 指 渐 近 稳定 系统 ) ， 最 终 达 到 不 再 随 着 时 间 明 
显 变化 的 系统 稳定 状态 (参照 A.4 节 )。 换 言 之 ， 霍 普 非 尔 德 网 络 的 运算 导致 能 量 函 数 单调 递 
减 ， 并 且 网 络 状 态 一 直 变化 ， 直 到 能 量 带 达到 局 部 极 小 。 相 空间 的 吸引 子 (吸引 盆 ) 与 能 量 
带 的 局 部 极 小 点 相关 。 这 些 吸 引子 符合 网 络 的 指定 存储 。 然 而 ， 正 如 前 面 所 提 及 的 ， 也 存在 
伪 吸 引子 。 对 于 没有 外 部 应 用 输入 了 时， 能量 函 数 可 定义 为 


1 n n 
多 -合作 wm (5-14) 
it J= l 


能 量变 为 
1 ， 
和 人 (5-15) 


霍 普 菲 尔 德 网 络 的 存储 容量 由 霍 普 非 尔 德 根据 实验 确定 [1i1]。 合 理 精确 地 存储 和 回忆 的 双 

极 模式 的 极 大 值 近似 为 
P,~0.15n (5-16) 
其 中 4 是 网 络 中 神经 元 的 个 数 。 然 而 ， 最 大 限度 的 精确 回忆 大 部 分 原型 记忆 的 需要 使 网 络 所 需 
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的 极 大 存储 容量 [4] 为 
n 
= Znan 
此 外 ， 如 果 要 使 所 有 的 原型 记忆 数 r 都 能 够 完美 回忆 ， 极 大 存储 容量 将 小 于 式 (5-17)。 在 这 
种 情况 下 ， 要 求 右边 获得 nr 位 (假定 99% 概 率 )， 并 且 极 大 存储 容量 由 [4] 给 定 如 下 
n 
:4Inn 


例 5.1 ”考虑 一 个 经 典 的 例子 ， 它 盖 明 了 霍 普 菲 尔 德 网 络 的 运算 。 图 5-3 给 出 了 带 有 固定 权 
值 的 3 个 神经 元 。 每 个 神经 元 的 闪 值 假设 为 0(。 网 络 可 能 有 8 种 可 能 的 双 极 状态 。 权 值 矩 阵 能 够 
直接 从 图 5-3 的 状态 图 中 得 出 如 下 





(5-17) 





(5-18) 








0 -2/3 2/3 
=|-2/3 0 -2/3 (5-19) 
2/3 -2/3 0 
它 满足 对 称 条 件 和 零 对 角 线 元 素 的 要 求 。 稳 定性 条 件 要 求 下 式 成 立 
x = sgn(Wx — 0) (5-20) 


然而 ， 8 种 可 能 双 极 向 量 仅 有 2 种 满足 稳定 性 条 件 ， 即 ， [一 1， 1, 一 1 和 [1, 一 1, 1]。 当 它 们 提交 
给 网 络 时 ， 剩 余 的 状态 将 转换 到 稳定 状态 。 图 5-3 表 明了 这 点 。 式 (5-19) 的 权 值 矩阵 由 两 个 
稳定 向 量 组 成 ( 即 原 型 记忆 ) 。 也 就 是 说 ， 使 用 式 (5-7) 能 够 写 出 下 式 




















1[-1 1 \ poo 
"=; 1|{-1,1,-1)4}-1 es 010 
-1 1 001 
0 -2/3 2/3 (5-21) 
-|-2/3 0 -2/3 
2/3 -2/3 0 








图 5-3 HA Ae RA HA ye E AE 图 5-4 三 神经 元 霍 普 菲 尔 德 网 络 的 状态 流 。 立 方 体 
尔 德 网 络 的 状态 图 两 角 的 点 表明 两 种 稳定 状态 
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另 一 种 方法 是 观察 霍 普 非 尔 德 网 络 纠 错 能 力 。 从 图 5-4 中 ， 我 们 发 现 ， 如 果 网 络 提 交 [ 一 1, 一 1， 
1), [1, 一 1, 一 1] 或 [1, 1, 1] 时 ， 网 络 收敛 到 [1, 一 1, 1]。 在 上 述 三 种 情况 下 ， 每 个 向 量 中 有 一 位 误 
Ze, 通过 网 络 “ 修 正 ” 产 生 原 型 向 量 [1, 一 1, 1J]。 对 于 另 一 原型 向 量 [一 1, 1, 一 1 有 类 似 的 情形 ， 
参看 图 5-4。 
使 用 式 (5-14) 中 带 有 图 5-3 所 示 的 突 触 权 值 网 络 的 表达 式 ， 能 量 函 数 可 以 写成 
2 


g= > (X, Xp — XiX; +X) (5-22) 


对 于 系统 的 8 种 可 能 状态 ， 两 种 稳定 原型 记忆 产生 式 (5-22) 中 能 量 函 数 的 最 小 值 。 表 5-1 给 出 
了 能 量 函 数 计算 出 的 八 个 值 ， 它 与 能 量 函 数 A 光一 起 改变 ， 其 中 ， 在 网 络 中 使 用 式 (5-15) 来 
改变 单个 神经 元 的 能 量 函 数 A 多。 
例 5.2 ”阐明 霍 普 菲 尔 德 网 络 识别 字符 的 能 力 。 图 5-5 显 示 MATLAB 中 产生 的 5 个 字符 ， 每 
个 字符 由 一 个 12 x 12 双 极 数字 阵列 组 成 。A + 1 是 黑色 的 ， 一 1 是 白色 的 。 霍 普 非 尔 德 网 络 需 
BEN = 144 个 带 有 N? = 20736 个 突 触 权 值 的 神经 元 (虽然 这 些 权 值 中 的 144 个 与 权 值 矩阵 的 对 角 
线 元 素 相关 的 权 值 是 0)。 网 络 中 每 个 神经 元 的 阔 值 假设 为 0， 每 个 字符 向 量化 成 单一 图 案 。 也 
就 是 说 ， 如 果 霍 普 非 尔 德 考虑 一 个 矩阵 , E RP“? (Ch = 1, 2, …, 5) 作 为 每 个 字符 的 矩阵 形式 ， 
那么 字符 的 向 量 形式 为 : 
中 = vec(X,) E R'*! (5-23) 








2 4 6 8 10 12 2 4 6 8 10 12 
零 模式 句点 模式 


图 5-5 通过 霍 普 菲尔德 神经 网 络 识别 的 5 个 字符 


其 中 操作 vec( : ) 形 成 一 个 来 自 矩 阵 的 向 量 ， 该 向 量 是 通过 把 该 矩阵 的 列 “堆栈 ”形成 的 〈 参 
照 A.2.17 节 )。 这 些 字符 按照 此 种 方式 创建 ， 可 以 很 好 地 保证 网 络 性 能 [13]。 通 过 观察 向 量 电 
(h = 1, 2, …, 5) 的 内 积 可 以 实现 这 一 点 。 越 是 邻近 的 向 量 越 有 可 能 相互 正 交 ， 识 别 的 效果 也 会 
更 好 。 突 触 权 值 矩阵 通过 使 用 5 个 来 自 式 (5-23) 的 原型 向 量 和 式 (5-7) 中 的 表达 式 来 创建 。 
在 图 5-6 中 ， 权 值 矩 阵 W E RH “表示 一 个 灰 度 图 。 
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表 5-1 例 5.1 的 能 量 函 数值 





相对 于 初始 状态 [1, 1, 1] 
能 量 函数 的 改变 A 有 





100 120 140 


图 5-6 05. 2R AEE RATE. BUBB) MITC RARER, BE 207 
较 大 的 元 素 对 应 的 像素 颜色 浅 。 权 值 矩 阵 的 零 对 角 线 在 图 像 中 是 非常 明显 的 208 





4 6 8 10 12 
2 次 迭代 后 
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损坏 的 T Poca hes} 2k [Ua 
图 5-7 例 5.2 的 模拟 结果 。 在 两 种 情况 下 两 个 字符 在 两 次 迭代 后 被 正确 地 识别 
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霍 普 非 尔 德 网 络 的 存 取 首 先 要 保证 5 个 原型 向 量 (字符 ) 能 够 从 CAM 中 回忆 。 应 用 式 (5-20) 
的 稳定 性 条 件 (6 = 0)， 在 每 种 情况 下 ， 字 符 能 够 回忆 或 由 存储 在 霍 普 菲 尔 德 网 络 中 的 信息 正 
确 地 恢复 。 为 了 阐明 霍 普 菲 尔 德 网 络 的 纠 错 能 力 ， 图 5-5 中 的 每 个 字符 被 噪声 破坏 。 也 就 是 说 ， 
每 个 字符 随机 “扭曲 ”一 些 “ 位 ”( 也 就 是 ， 一 个 随机 极 性 变化 )。 位 误差 率 (BER) 是 30% 
(或 一 位 扭曲 的 概率 是 0.3)。 所 以 ， 在 图 案 中 平均 有 30% 的 位 的 符号 发 生变 化 (也 就 是 ， 从 一 
个 黑色 像素 到 一 个 白色 像素 的 扭曲 ， 反 之 亦 然 ) 。 图 5-7 给 出 噪声 损坏 的 两 个 字符 的 重 构 结果 。 
在 这 两 种 情况 下 ， 通 过 两 次 迭代 ,使 (5-20) 式 的 浆 值 都 等 于 0， 这 样 字 符 能 够 完成 重 构 (或 
被 回忆 )。 剩 余 字 符 仅 通过 一 次 迭代 就 能 够 完全 重 构 。 当 位 误差 率 超过 30% 时 ， 结果 是 零乱 的 。 
大 多 数 情况 下 ， 字 符 不 能 够 完全 重 构 ， 或 识别 了 错误 字符 。 


5.4 模拟 退火 


在 5.3 节 中 ， 我 们 发 现 霍 普 菲 尔 德 神经 网 络 局 部 能 够 在 网 络 达到 局 部 最 小 值 时 恢复 存储 模 
式 。 然 而 ， 大 多 数 情况 下 要 求 网 络 达到 全 局 最 小 值 ， 例 如 最 优化 问题 。 对 于 霍 普 菲 尔 德 网 络 ， 
使 用 梯度 下 降 规则 来 检索 网 络 的 存储 模式 ， 最 终 收 你 于 一 个 局 部 最 小 值 ， 然 后 保持 不 变 (这 
样 术语 陷入 一 个 局 部 最 小 值 ) 。 如 果 对 于 网 络 的 全 局 能 量 相关 的 目标 〈 代 价 ) 函数 求 一 个 全 局 
最 小 值 ， 可 以 在 路 径 搜索 中 仅 使 用 局 部 信息 ， 局 部 随机 性 必须 考虑 增加 到 梯度 下 降 方 法 中 ， 
以 增加 搜索 全 局 最 小 值 的 概率 。 这 就 涉及 下 面 将 要 讨论 的 模拟 退火 算法 。 

模拟 退火 最 初 由 Kirkpatrick et al.[14] 提 出 ， 可 以 用 来 解决 组 合 最 优化 问题 ， 或 NP 完 全 
( 非 确 定 多 项 式 时 间 完全 ) 问题 。 模 拟 退 火 [14-19] 不 同 于 标准 迭代 改善 最 优化 方法 (梯度 下 降 
法 )。 在 该 方法 中 ， 搜 索 全 局 最 小 值 时 随机 性 被 考虑 进去 。 这 使 得 系统 “ 跃 ” 出 局 部 最 小 值 
( 见 图 5-8)， 并 且 继 续 搜索 全 局 最 小 值 。 若 没有 “跳出 ”这 个 局 部 最 小 值 ， 那 么 这 个 局 部 最 小 
值 将 是 迭代 改善 搜索 方法 的 最 后 结果 。 因 此 ， 算 法 并 不 一 定 非 要 粘 沸 于 局 部 最 小 值 ， 而 是 可 
以 跳出 局 部 最 小 值 到 达 全 局 最 小 值 ， 在 它们 之 间 至 少 要 跨越 (或 征服 ) 一 个 山 硝 。 模 拟 退 火 
的 “跳出 ”操作 是 算法 中 温度 参数 变化 的 结果 ,并且 在 非 零 温度 下 从 局 部 最 小 值 跳出 来 的 转 
化 总 是 切实 可 行 的 。 模 拟 退 火 的 另 一 个 特征 是 它 展示 一 个 自 适应 分 治 性 质 。 系 统 状态 的 大 致 
粗略 特征 将 在 较 高 的 温度 下 表现 出 来 ， 而 系统 状态 的 细节 特征 在 较 低 的 温度 下 表现 。 





图 5-8 含有 和 多 个 极 小 值 和 极 大 值 的 两 个 变量 的 函数 的 示意 图 
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模拟 退火 算法 将 一 个 含有 大 量 系统 变量 的 代价 函数 最 优化 问题 和 一 个 在 不 同 有 限 温度 的 
热平衡 内 具有 多 自由 度 的 物理 系统 之 间 做 了 一 个 类 比 ， 就 像 在 统计 力学 [20] 中 发 现 的 一 样 。 给 
定 一 个 描述 ， 计 算 系 统 能 量 并 找到 它 的 低温 状态 ， 这 是 一 个 与 组 合 最 优化 问题 类 似 的 最 优化 
问题 。 在 固体 物理 学 中 [21]， 退 火 这 个 名 词 涉 及 在 加 热 一 个 固体 超过 熔点 变 成 液体 状态 ， 然 后 
( 慢 慢 地 ) 降低 温度 以 便 在 品格 内 所 有 微粒 重 排序 的 物理 过 程 。 当 它 冷 却 时 ， 液 态 金 属 微粒 寻 
找 最 小 能 量 配置 (或 状态 ) 。 冷 却 阶 段 缓慢 进行 〈 与 汶 火 相反 ) ， 最 终 在 晶 格 上 环 症 最 小 化 。 
晶 格 的 无 瑕 症状 态 满足 结构 的 全 局 最 小 能 量 状态 。 模 拟 退 火 过 程 由 两 个 阶段 组 成 ， 首 先 在 有 
效 高 温 下 融化 系统 ， 使 其 最 优化 ， 然 后 缓慢 降低 温度 直到 系统 冻结 (也 就 是 说 ， 没 有 进一步 
的 变化 发 生 )。 

在 统计 力学 中 一 个 能 量 函数 区 (x) 可 以 定义 为 ， 度 量 在 一 个 给 定 状 态 x* 下 ， 原 子 集合 (或 
一 个 物理 系统 ) 的 热能 ， 其 中 x E 中 (所 有 可 能 点 的 集合 )。 一 个 物理 学 的 基本 结论 是 在 热 平 
衡 下 ， 每 个 状态 x 的 发 生 概率 如 下 


l xe 
Prix)= >e Paneer (5-24) 


其 中 妇 是 玻 尔 兹 曼 常数 [ks = 1.3806 x 10-2J/K (焦耳 / 开 氏 温标 )]，7 是 温度 ，Z 是 分 割 函数 。 
分 割 函 数 定义 为 
Z=Tr(e fT) (5-25) 
其 中 Tr 表示 在 采样 系统 [14] 中 的 原子 所 有 可 能 配置 种 类 的 总 数 。 分 割 函 数 将 限制 式 (5-24) 中 
的 Pr(x) 在 0 到 1 之 间 ， 式 (5-24) 可 以 写成 
E(x)/keT 
Tre O/T) 
即 所 谓 的 玻 尔 兹 曼 一 吉 布 斯 (Boltzmann-Gibbs) 分 布 。 定 义 一 个 与 随机 状态 变化 相关 的 概率 
Pr(x 一 x,) 的 集合 ， 邑 从 任意 状态 x 到 某 个 紊乱 状态 x, 的 变化 。 变 化 概率 集合 Pr(x 一 xb) 可 能 无 
法 保证 达到 热平衡 ， 但 既然 我 们 关注 热平衡 ， 并 且 不 限制 系统 的 循环 或 混乱 行为 ， 就 需要 一 
个 充分 条 件 Pr(x 一 x,) 来 确保 使 其 达到 热平衡 。 确 保 Pr(x 一 x。p) 可 以 到 达 热 平衡 的 充分 条 件 是 从 x 
到 x, 的 变化 概率 平均 等 于 从 x, 到 x 的 变化 概率 。 可 以 写作 
Pr(x)Pr(x—x,) = Pr(x,)Pr(x, >x) (5-27) 
如 果 式 (5-27) 成 立 ， 系 统 将 依照 玻 尔 兹 曼 一 吉 布 斯 分 布 达 到 平衡 。 重 排序 式 (5-27) 并 使 用 
R (5-26) ， 得 到 如 下 式 子 
Prex 一 2) es 
Prix, > x) eo ket 
其 中 A 多 = 儿 (x,) 一 多 (x)， 即 ， 能 量 的 变化 。 
米 特 罗 波 利 斯 (Metropolis) 算法 [22]， 是 一 种 蒙特 卡 罗 (Monte Carlo) 技术 ,满足 
式 (5-27) 的 条 件 ， 使 用 下 面 的 变化 概率 


Pr(x) = (5-26) 


-[& -£ kgT 一 
[ (xp) (x)]/kp =e A&/kpT (5-28) 





=€ 


对 于 Ag <0 
Pr x)= 1 arin 对 于 ASSO (5-29) 


对 于 模拟 在 一 个 给 定 温度 下 的 原子 集合 演化 达到 平衡 ， 米 特 罗 波 利 斯 算法 提出 了 一 个 简单 有 
效 的 方法 。 在 算法 的 每 个 后 继 步 又 中 ， 温 度 慢 慢 降低 ， 一 个 原子 发 生 一 个 小 的 随机 波动 ( 置 
换 )， 在 能 量 多 中 引起 的 变化 用 A 多 表示 ， 随 后 计算 。 从 式 (5-29) 中 ， 如 果 能 量变 化 是 负 的 ， 


N 
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AIAS<0 (降低 能 量 )， 那 么 允许 置换 ， 并 且 和 置换 原子 的 配置 当 作 初 始 化 条 件 来 开始 下 一 个 步 
RR. WRAS SO (从 一 个 较 低 能 量 状态 变化 到 一 个 较 高 的 能 量 状态 ) ， 配 置 是 否 被 接受 将 依靠 
来 自 式 (5-29) 的 概率 ， 也 就 是 

Pr(A &) A eh? /tT (5-30) 


通过 使 用 区 间 [0, 1] 的 均匀 分 布 随机 数 来 实现 算法 的 随机 选择 部 分 (参见 A.7.4 节 )。 从 该 分 布 
中 选择 一 个 数 与 Pr(A 多 ) 比 较 ， 如 果 该 数 小 于 Pr(A 多 )， 新 的 (混乱 ) 配置 保留 ， 如 果 大 于 或 
等 于 Pr(A 多 )， 当 前 配置 不 变 并 用 于 下 一 步 。 通 过 多 次 重复 这 个 基本 步骤 ， 模 拟 漫 度 T 下 与 热 
座 相 关 的 原子 热 运动 。 假 设 温 度 下 降 得 足够 慢 ， 在 每 个 选 定 的 温度 下 ， 原 子 集合 都 能 够 达到 
热平衡 。 如 果 式 (5-27) 中 的 条 件 满足 ， 系 统 将 按照 玻 尔 兹 曼 - 吉 布 斯 分 布 变化 并 达到 平衡 。 

基于 模拟 退火 的 全 局 搜索 算法 ( 源 自 统计 力学 的 米 特 罗 波 利 斯 算法 ) 有 四 个 基本 部 分 : 
(1) 简洁 的 系统 配置 描述 ，(2) 一 个 目标 函数 或 代价 函数 〈 包 含 必 要 的 权衡 )，(3) 一 个 探 
测 过 程 ， 或 一 个 配置 中 系统 组 成 单元 的 “移动 ”或 重新 安排 的 随机 发 生 器 ，(4) 温度 退火 调 
度 和 定义 系统 演变 [14] 的 时 间 周 期 。 基 本 的 思想 是 用 大 部 分 时 间 “ 下 山 ” 算 法 代替 始终 下 山 
算法 [23]。 

基于 模拟 退火 的 全 局 搜索 方法 对 于 给 定 的 全 局 多 元 代价 (目标 ) ABS (x) (x E 中 ) 求 其 全 
局 最 优化 解 ， 步 又 如 下 : 


oe 基于 模拟 退火 的 全 局 搜索 算法 


步骤 1 初始 化 徇 量 z 为 一 个 集合 加 内 的 随机 点 。 

步骤 2 为 参数 T 选 择 一 个 退火 (冷却 ) 进度 表 ， 初 始 化 7 为 一 个 足够 大 的 数 。 

步骤 3 计算 x,=x+Ax (其 中 Ax 是 一 个 系统 状态 下 建议 的 变化 )。 

步骤 4 计算 在 代价 (能量 ) 函数 中 的 改变 Af = flx,) 一 flx)。 

步骤 5 使 用 与 米 特 罗 波 利 斯 算法 相关 的 式 (5-29) 来 决定 是 用 x, 当 作 系 统 新 的 状态 还 是 保持 当前 状 
态 x。 对 于 模拟 退火 最 优化 算法 等 式 (5-29) 做 如 下 改变 

对 于 Af<0 

对 于 Af>0 
其 中 用 T 人 代替 KsT。 在 Af 之 0 的 情况 下 ， 随 机 数 n 从 [0, 1] 范 围 内 的 均匀 分 布 中 选择 。 如 果 Pr(x 一 
x) > ， 混 乱 状 态 x, 作 为 新 状态 (或 搜索 点 ) REA, EM, RA (或 搜索 点 ) 保持 为 x。 

步骤 6 重复 步骤 3 一 步骤 5 直到 系统 达到 平衡 ， 即 ， 所 接受 到 的 变化 数量 微不足道 时 ， 当 前 搜索 的 
点 是 (或 接近 ) 局 部 最 小 值 。 通 常 步骤 3 一 步骤 5 按 预 先 规定 的 次 数 执行 。 

步骤 7 ”在 步骤 2 中 温度 7 按照 退火 进度 表 更 新 ， 重 复 步 又 3 一 步骤 6。 当 温度 7 达到 零 (系统 冻结 ) 或 
一 个 规定 的 很 小 的 数 〈 正 数 ) 时 ， 该 过 程 停止 。 口 


该 算法 的 相关 性 能 依赖 于 温度 参数 T 的 进度 表 选 取 。 如 果 系 统 冷却 得 太 快 ， 收 敛 可 能 发 生 
得 太 早 ， 可 能 导致 一 个 局 部 最 小 值 作为 “解决 方案 ”。 另 一 方面 ， 如 果 T 的 进度 设置 得 太 慢 ， 算 
法 将 花费 大 量 的 计算 时 间 才 能 收 伍 。 按 照 Geman 和 Geman[24] 的 观点 ， 如 果 温 度 参数 如 下 变化 

T(0) 
log(] + k) 
FPR RABI, TOERKE, TO) Mean (一 个 足够 大 的 正常 量 )， 
模拟 退火 算法 可 以 保证 收敛 (概率 为 1)， 当 k 一 “时 f(x) 达 到 一 个 全 局 最 小 值 。 该 算法 产生 一 
个 马尔 可 夫 (Markov) 链 [253]， 按 照 最 小 能 量 配置 [24] 的 均匀 分 布 收敛 。 式 (5-32) 给 定 的 温 
度 进度 表 非 常 慢 ， 致 使 它 无 法 使 用 。 对 加 速 模拟 退火 搜索 算法 的 兴趣 与 工作 一 直 在 持续 。 例 
如 ，Szu[26] 的 工作 。 使 用 一 个 次 优 的 方法 可 以 加 速 收 敛 ， 但 在 性 能 上 要 付出 相应 的 代价 。 也 








pro 


1 
Pea) yi (5-31) 


T(k) = 





k =1,2,--- (5-32) 
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就 是 说 ， 算 法 不 再 保证 一 定 能 够 收敛 到 全 局 最 小 值 (概率 为 1) 。 然 而 ， 在 只 需求 出 接近 最 优 
的 解 时 ， 算 法 的 次 优 解 决 方案 有 许多 实际 的 应 用 。 温 度 进度 表 的 一 个 次 优 方 法 由 [14] 给 定 如 下 

T(k)=aT(k-1) k=1,2,. (5-33) 
其 中 衰减 因子 a 应 该 足够 小 并 且 接近 单位 值 ， 一 般 ，0.8< as<0.99。 等 式 (5-33) 给 出 温度 调 
度 中 的 指数 缩 碱 。 为 了 使 这 个 瘟 度 调 度 算法 更 加 可 行 ， 在 每 个 限定 的 温度 [14] 变 换 尝 试 应 在 限 
定 的 次 数 内 。 例 如 ， 在 每 个 温度 下 尝试 足够 变化 ， 以 使 系统 接收 10 次 状态 变化 。 如 果 期 望 接 
收 的 数 在 三 个 连续 温度 下 仍 未 达到 ， 那 么 系统 定义 为 冻结 和 停止 退火 。 

例 5.3 ”为 了 曾 明 模拟 退火 作用 于 最 优化 问题 ， 考 虑 著名 的 “旅行 商 ” 问 题 。 该 问题 按 如 
下 方式 描述 。 在 一 个 推销 旅程 中 推销 员 需 要 访问 给 定 的 城市 集合 WY。 他 想 依次 访问 每 个 城市 一 
次 ， 并 且 以 一 个 所 需 旅 行 最 少 的 顺序 进行 (也 就 是 距离 最 短 )。 最 优化 任务 是 决定 推销 员 在 旅 
程 中 依次 访问 的 城市 的 最 优 顺 序 。 模 拟 退 火 方法 在 该 问题 应 用 中 的 第 一 步 是 定义 所 有 可 能 方 
案 的 状态 空间 。 在 这 个 例子 中 ， 方案 是 旅程 中 的 一 个 城市 序列 表 。 在 该 方法 中 ， 假 定 城市 的 
任意 顺序 是 可 行 的 ， 所 以 ， 如 果 要 访问 N 个 城市 ， 不 同 序 列 的 可 能 数量 是 N!。 旅 行商 问题 的 候 
选 方案 数量 与 城市 数量 的 阶乘 是 成 比例 的 。 即 使 一 些 不 能 生成 最 优 解 的 方案 能 够 很 容易 地 被 
排除 ， 但 对 于 如 此 多 的 更 优 方 案 来 说 ， 问 题 的 规模 还 是 太 大 。 现 在 假设 有 一 个 城市 的 初始 序 
列 。 需 要 指明 状态 混乱 的 本 质 ， 即 ， 用 于 在 问题 配置 空间 “旅行 ”的 算法 。 对 于 该 例 ， 通 过 
在 当前 解决 方案 中 交换 两 个 城市 的 位 置 来 得 到 一 个 新 的 解决 方案 〈 即 一 个 新 序列 ) 。 最 后 ， 需 
要 指明 建议 方案 适当 量化 的 代价 函数 。 这 里 ， 代 价 函数 用 作 表 示 推 销 员 旅 行 的 总 距离 。 

图 5-9a 显 示 了 20 个 需要 访问 的 城市 (随机 选择 ) 的 位 置 。 在 模拟 退火 方法 中 可 以 从 任意 
初始 序列 开始 。 图 5-9b 显 示 出 一 个 这 样 的 序列 (随机 生成 的 模拟 )。 正 如 显示 的 一 样 ， 该 序列 
包含 推销 员 旅 程 路 程 和 ， 并 可 以 明显 看 出 当前 的 方案 远离 了 最 优 路 径 。 在 算法 的 每 一 步 中 ， 
通过 交换 随机 选择 的 两 个 城市 的 位 置 得 到 一 个 新 的 序列 。 通 过 使 用 基于 模拟 退火 的 全 局 搜索 
算法 的 米 特 罗 波 利 斯 标准 ， 即 式 (5-31)， 新 提议 的 序列 要 么 被 接受 ， 要 么 被 拒绝 。 在 给 定 温 
度 下 混乱 的 数量 设置 为 N(N 一 1) / 2。 温 度 按照 式 (5-33) 中 给 定 的 带 有 参数 cx = 0.95 的 指数 速 
度 冷却 。 最 终 由 最 优化 算法 得 到 的 序列 显示 在 图 5-9c 中 。 如 图 所 示 ， 该 访问 城市 序列 的 总 旅 
行距 离 比 图 5-9b 中 的 初始 条 件 少 得 多 。 最 后 ， 图 5-9d 显 示 了 按照 最 优化 算法 状态 空间 轨迹 计 
算出 的 代价 函数 值 ( 即 旅行 总 距离 )。 





图 5-9 使 用 模拟 退火 的 旅行 商 问 题解 决 方案 。a) 20 个 城市 的 位 置 ，b) 初始 (条件 ) 解决 
HR: O 通过 模拟 退火 得 到 的 解决 方案 ，d) 退火 过 程 中 的 代价 函数 轨迹 





N 
a 
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5.5 BRAS 


玻 尔 兹 曼 机 是 建立 在 模拟 退火 〈 参 见 5.4 节 ) 和 使 用 随机 神经 元 [27-29] 基 础 上 ， 并 行 的 约 
束 满足 网 络 。 玻 尔 兹 曼 机 能 够 学 习 集 合 [28] 所 示 的 一 组 模式 的 潜在 约束 特性 。 由 于 该 网 络 运用 
扩展 的 内 部 反馈 和 随机 神经 元 ， 故 认为 是 随机 递归 网 络 。 可 以 把 该 网 络 看 成 是 霍 普 非 尔 德 网 
HERE (205.34). KAP MAES RETR RASTA RHA A, MEY 
EREMARRHEEER RMA. RRASUS MERE REMADARCATESE SI: 
(1) WEIDE, BRP SLEEPER A AK” HEIZE, TE AE 
的 神经 元 建立 在 具有 确定 性 点 火 机 制 的 McCulloch-Pitts 神 经 元 模型 上 ，(2) 霍 普 非 尔 德 网 络 
采用 无 监督 操作 ， 而 玻 尔 兹 曼 机 器 可 以 在 监督 模式 下 训练 〈 也 可 以 在 无 监督 模式 下 操作 ) 。 玻 
尔 兹 曼 机 器 和 和 霍 普 非 尔 德 网 络 的 共同 点 是 : (1) 所 有 突 触 权 值 连接 对 称 ，(2) 不 存在 自 反 
Mt, (3) 处 理 单元 有 双 极 状态 ，(4) 可 随机 选择 神经 元 ， 并 且 一 次 只 更 新 一 个 。 

玻 尔 兹 曼 机 器 非常 适合 于 涉及 大 量 “ 弱 ” (或 “ 软 ") 限制 的 约束 满足 任务 [28, 30]. 295K 
满足 搜索 一 般 [31] 运 用 满足 任何 解决 方案 的 “ 强 ” 约 东 限 制 。 在 涉及 博弈 和 迷宫 问题 领域 时 ， 
目标 准则 通常 有 强 限制 特性 ， 因 此 ， 强 限制 是 规则 (不 要 混淆 合法 游戏 与 好 游戏 ) 。 然 而 ， 对 
于 一 些 实际 问题 ， 准 则 并 不 是 全 有 或 全 无 ， 很 多 情况 下 ， 最 好 的 解决 方案 并 不 满足 约束 限制 
[32]。 因 此 在 这 种 情况 下 ， 最 优 解 通常 是 实际 上 尽 可 能 (而 不 是 正好 ) 满足 弱 限 制 的 “最 好 ” 
解 。 下 面 先 给 出 随机 神经 元 的 概述 。 

随机 神经 元 

我 们 希望 用 数学 上 易 处 理 的 方式 来 解决 神经 网 络 中 突 触 噪声 的 影响 。 最 常用 的 方法 是 运 
用 概率 方法 来 命令 神经 元 点 火 。 假 定 q 神 经 元 根据 概率 规则 点 火 ， 即 根据 概率 Pr(v,)， 神 经 
元 的 点 火 由 神经 元 活动 水 平 值 w = Dawg 决定 (参见 2.2 节 ) 。 从 而 输出 神经 元 ys 遵 从 概率 
规则 

“1-1 ”概率 为 1 一 Pr(w) (5-34) 
#u,=0, Wy, = +1 的 概率 各 为 /2。 概 率 函 数 Pr(v) 的 典型 选择 是 


y l 1 概率 为 Pr(v,) 


1 
Pr(v) = Ire #7 (5-35) 
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式 (5-35) 是 S 形 函数 (参见 2.3 节 ) ，7 是 用 来 控制 不 确定 相关 神经 元 点 火 的 类 似 温度 参数 
( 伪 温 度 )。 对 于 无 噪声 情况 ， 即 温度 参数 7 接近 0 时 ， 式 (5-34) 中 概率 规则 还 原 为 式 (5-2) 
表示 的 霍 普 非 尔 德 网 络 的 确定 性 规则 。 图 5-10 描 绘 出 了 随机 神经 元 点 火 的 概率 分 布 ， 无 噪声 
极限 (T 一 0) 导致 McCulloch-Pitts 神 经 元 的 二 值 激活 函数 。 
REEMA, RRS AMERY (Bw, = wi) ， 不 允许 自 反馈 
(因此 , w,=0, Vi=j), 这 类 神经 元 的 系统 状态 概率 来 源 于 统计 力学 的 玻 尔 兹 曼 一 吉 布 斯 分 布 ， 
因此 ， 这 类 神经 网 络 称 为 玻 尔 兹 曼 机 器 。 玻 尔 兹 曼 机 器 中 的 神经 元 划分 为 两 类 : 可见 和 隐藏 。 
对 于 玻 尔 兹 曼 机 器 中 的 隐藏 神经 元 存在 与 前 馈 网 络 相似 的 情况 ， 即 在 不 能 从 训练 模式 知道 隐 
藏 单元 表示 什么 的 情况 下 确定 正确 连接 到 隐藏 神 经 元 的 问题 。 图 5-11 描 绘 了 这 两 类 神经 元 的 
区 别 。 如 果 n, 表 示 可 见 神经 元 的 个 数 ， 表 示 隐 藏 神经 元 的 个 数 ， 则 网 络 连接 的 总 数 为 (n+ 
n(n, +n 一 1)。 在 无 监督 模式 下 , 输入 输出 神经 元 没有 区 别 ， 仅 有 可 见 神经 元 与 “外 部 环境 
存在 直接 的 相互 作用 ， 并 且 钳 住 环境 状态 。 隐 藏 神经 元 可 以 自由 操作 ， 并 且 在 环境 输入 中 达 
到 说 明基 本 限制 的 目的 。 这 种 无 监督 学 习 过 程 可 用 于 概率 分 布 建 模 ， 此 种 分 布 用 与 具有 恰当 
概率 的 可 见 神经 元 上 的 同 环境 相关 的 夹 钳 模式 说 明 。 如 果 网 络 能 学 习 训 练 恰当 的 概率 分 布 ， 
则 网 络 能 执行 所 谓 的 模式 完成 。 在 监督 模式 下 ， 玻 尔 兹 曼 机 器 定义 了 输入 和 输出 神经 元 ( 参 
看 图 5-11) ， 并 且 执行 联想 功能 。 训 练 的 监督 模式 要 对 每 一 输入 模式 提供 概率 修正 响应 模式 。 





Priv) O 可 视神经 元 
1 @ waren 
输入 神 
经 元 
0 v 
图 5-10 BALAI KE OF BK 图 5-11 表示 可 见 和 隐藏 神经 元 的 玻 尔 兹 曼 机 器 
(SÆ) 和 用 粗 线 表 示 的 McCulioch- 网 络 的 例子 
Pitts 神 经 元 激 话 函数 
下 式 给 出 全 局 网 络 配置 的 能 量 


5 = SY Zurt Dor (5-36) 


其 中 相当 于 第 i 个 神经 元 输出 (状态 ) ，0: 是 第 i 个 神经 元 阀 值 ，wj 是 神经 元 i 和 /的 连接 突 触 权 
值 。 如 果 神 经 元 i 是 激活 状态 ， 则 状态 x 为 +1， 反 之 车 神经 元 i 不 是 激活 状态 ， 则 状态 x; 为 一 1。 
A (5-36) 的 最 小 值 是 网 络 的 稳定 状态 。 能 量 函数 式 (5-36) 的 向 量 矩 阵 形式 为 


& = -Tx Wx+x"0 (5-37) 


N 
n 


217 
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由 于 玻 尔 兹 曼 机 器 具有 隐藏 单 元 ， 因 此 ， 玻 尔 兹 曼 机 比 替 普 菲尔德 网 络 需 要 更 新 更 多 神 
经 元 ， 即 需要 更 新 与 隐藏 神经 元 相关 的 权 值 。 尽 管 这 样 ， 更 新 过 程 相 当 简单 直接 。 一 般 而 高 ， 
在 玻 尔 兹 曼 机 器 中 ， 交 替 存 在 着 与 学 习 周 期 相关 的 两 个 阶段 : 正 向 阶段 和 负 向 阶段 。 然 后 是 
突 触 权 值 调整 。 特 别 地 ， 神 经 元 i 是 随机 选择 的 ， 通 过 从 正 向 状态 x 到 负 向 状态 一 的 状态 转换 
函数 表示 输出 。 状 态 转 换 国 数 为 

Pr(x, > -x,) = — hr (5-38) 

lt+e 

其 中 A 器 是 神经 元 i 相关 转换 的 能 量变 化 ，T 是 伪 温 度 。 当 T 一 0 时 ， 等 式 (5-38) TEE 
普 非 尔 德 网 络 中 的 且 与 确定 的 McCulioch-Pitts 神 经 元 模型 相关 的 “阶梯 函数 ”"。 因 此 ， 霍 普 非 
尔 德 网 络 是 当 玻 尔 兹 曼 机 器 的 温度 为 0、 没 有 隐藏 神经 元 的 特殊 情况 。 将 式 (5-38) 与 
式 (5-35) 中 的 概率 函数 Pr(v) 比 较 ， 可 发 现 它 们 形式 不 同 ， 但 表示 是 相同 的 。 为 了 说 明 这 一 
点 ， 观 察 式 (5-36) 中 的 能 量 函 数 的 变化 (假定 网 络 不 包含 外 界 偏 置 ， 因 此 0, = 0Vi)。 再 假 
定神 经 元 的 状态 改变 由 正 到 负 ， 即 x 一 一 x;， 能 量 函数 的 变化 表示 为 


A&= -Ax, Dy = —2Xx,v, (5-39) 
一 一 
一 Li 


其 中 心 是 神经 元 ;的 活动 水 平 。 将 式 (5-39) 中 的 能 量变 化 A 多 代入 式 (5-38) 中 ， 得 


l 
Pr(x; 一 —X;) = T (5-40) 
+e 


因此 ， 当 神经 元 i 的 初始 状态 x; = 一 1 时 ， 由 式 (5-40) 给 出 的 神经 元 将 转换 或 扭曲 到 相反 状态 
( 即 % 一 1) 的 概率 为 


Prix, > I) =p (5-41) 
l+e 


式 (5-41) 与 式 (5-35) 一 致 。 著 神经 元 i 的 初始 状态 是 x; = 1， 则 神经 元 将 反 转 到 相反 状态 
(x 一 一 1) 的 概率 为 





1 
leet (5-42) 


Pr(x, > -1) = 
显然 ， 式 (5-42) 可 改写 为 

1 
l+e°" 
式 (5-41) 与 式 (5-43) 一 起 正好 是 式 (5-34) 描述 的 关于 一 般 随机 神经 元 的 概率 规则 。 在 玻 
尔 兹 曼 机 器 中 总 共有 7 =n, + ;个 (可 见 和 隐藏》 神经 元 。 若 每 一 神经 元 呈现 双 极 状态 
= 二 1 的 任 一 种 ， 网 络 全 局 状态 的 总 数 为 2。 

在 玻 尔 兹 曼 机 器 中 ， 运 用 模拟 退火 搜寻 能 量 地 图 ， 以 确定 能 量 函数 的 全 局 最 小 值 。 从 而 ， 
网 络 根据 米 特 罗 波 利 斯 动力 学 演变 。 在 霍 普 菲 尔 德 网 络 中 ， 由 于 网 络 的 局 部 最 小 能 量 点 用 来 
储存 信息 ， 因 此 需要 定位 这 些 局 部 最 小 点 。 对 于 玻 尔 兹 曼 机 器 ， 给 定 当前 输入 ， 执 行 约束 请 
足 任务 时 ， 希 望 “ 避 开 ” 局 部 最 小 而 搜索 全 局 最 小 。 因 此 ， 在 玻 尔 兹 曼 学 习 过 程 中 ， 首 先 在 
高 温 下 运行 网 络 ， 然 后 ， 慢 慢 降 低温 度 直 到 网 络 达到 热平衡 。 在 这 个 过 程 中 网 络 实现 能 量 最 
小 化 。 降 温 过 程 遵循 退火 进度 ( 即 “温度 ”参数 7 的 冷却 计划 ) 完成 参见 5.4 节 )。 在 高 漫 时 ， 





Pr(x, > -1)=1 = (5-43) 
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完成 全 局 状态 空间 的 粗略 搜索 ， 这 一 过 程 中 微弱 的 能 量变 化 被 忽略 ， 网 络 迅速 接近 热平衡 ， 
并 且 达 到 较 好 的 极 小 值 。 降 低 漫 度 使 网 络 完成 能 量 分 布 的 精确 搜索 ， 现 在 需要 网 络 对 微弱 的 
能 量变 化 做 出 响应 。 在 精细 调整 过 程 中 ， 网 络 在 能 量 的 粗略 搜索 到 的 极 小 值 附 近 找 出 更 好 的 
极 小 值 。 因 此 ， 当 退火 过 程 结束 时 ， 网 络 将 定位 在 与 一 系列 满足 弱 限 制 的 且 最 接近 可 行 解决 
方案 的 极 小 值 处 (不 是 最 好 ， 而 是 尽 可 能 好 )。 

玻 尔 兹 曼 机 器 学 习 规 则 不 是 起 源 于 此 ， 但 在 [4, 27] 中 按部就班 地 按照 算法 中 的 步骤 得 以 实 
现 。 可 见 神经 元 的 状态 用 ac 标示 ， 隐 藏 神经 元 用 有 8 标示。 之 前 ， 假 定 可 见 神 经 元 的 个 数 为 mu， 
隐藏 神经 元 的 个 数 为 a,， 因 此 ，ca 取 值 从 1 到 2"、B 取 值 从 1 到 2”。 用 ac 和 有 定义 的 网 络 全 局 状 
态 共 有 2%“ 种 可 能 状态 。 找 到 全 局 状态 中 的 每 一 种 的 概率 Prop 由 Boltzmann-Gibbs 分 布 给 出 
(参见 5.4 节 )。Pr。, 是 在 状态 a 独立 于 PB 情况 下 找到 可 见 神经 元 的 概率 。 概 率 Pros 可 在 给 出 可 见 状 
态 a 条 件 下 ， 根 据 隐 藏 神经 元 B 的 条 件 概率 Pr pa (ERAZI) 给 

Prag = PrgioPr, (5-44) 

在 “自由 运行 系统 ”中 ，Pr。 实 际 上 是 在 状态 a 时 找到 可 视 单元 的 概率 ， 由 网 络 的 突 触 权 值 wi 
决定 。 这 些 状态 的 期 望 概率 由 集合 R。 表 示 

在 操作 上 ， 学 习 算法 由 四 层 伐 套 循 环 [4] 实 现 : 


玻 尔 效 曼 机 的 学 习 算法 _. . 
RT 在 最 外 层 循环 中 ， 网 络 的 突 角 机 值 根据 下 式 更 新 多 次 ， 以 确保 收效 
Aw, = Bfe) angea (Ee (5-45) 
Hty>0, #H 
EE = > SRP np i,j= ye nie) (5-46) 


它 是 神经 元 /和 i 的 状态 之 间 的 关系 ， 以 固定 到 环境 的 可 见 神经 元 为 条 件 (所 有 的 可 能 状态 取 
平均 )。 所 以 ahaa ， 是 (xxj) 当 可 见 单元 在 状态 a 中 错 制 时 的 值 ， 按 照 期 望 概率 R。 
计算 a 的 平均 值 。 在 式 (5-46) 中 ,ww 表示 神经 元 i 的 状态 ， 其 中 可 见 神经 元 在 状态 a 中 和 [220 
隐藏 神经 元 在 状态 B 中 。a 的 范围 是 [12"] (对 于 可 见 神经 元 ) ， 有 的 范围 是 由 2"] (对 于 
隐藏 神经 元 )，n = n+ nm, 是 网 络 中 神经 元 的 总 数量 。 式 (5-45) 的 第 一 项 本 质 上 是 带 有 可 
见 的 钳制 单元 的 Hebb 项 。 式 (5-45) 中 第 二 项 符合 带 有 自由 运行 的 Hebb 不 学 习 。 当 自由 系统 
单元 /单元 相关 性 (xix)) 等 于 钳制 的 单元 时 ， 该 过 程 收敛 。 
循环 2 对 于 循环 1 中 的 每 次 迁 代 必须 在 松 开 状 态 下 ， 与 钳制 在 期 望 模式 中 的 可 视 单元 计算 。 为 了 运 
AREER, HEEDERAT> 0 来 说 ， 系 统 必须 处 于 热平衡 状态 。 系 统 状态 x 波 动 ， 
通过 计算 xu 的 时 间 平均 度量 相关 性 (xx 》。 为 了 得 到 对 于 计算 式 (5-45) 的 突 触 权 值 更 新 
规则 的 所 有 必要 信息 ， 这 个 过 程 必须 依次 执行 ， 先 用 含有 钳制 的 每 个 状态 cr 下 可 视神经 元 ， 再 将 
神经 元 松 开 -一 次 。 在 每 种 情形 中 ， 在 得 到 一 个 平均 值 之 前 系统 必须 重复 上 述 步骤 直至 达到 热平衡 
循环 3 对 于 循环 2 中 的 每 个 平均 值 ， 对 一 个 足够 大 的 初始 温度 T(0)， 使 温度 逐渐 地 降低 ， 必 须 使 用 
一 个 模 权 退火 温度 进度 表 {T(D} 来 实现 热平衡 。 
循环 4 在 循环 3 的 每 个 温度 ， 许 多 神经 元 必须 抽样 出 来 ， 按 照 式 (5-34) 的 规则 更 新 
i | 概率 是 Privy) 


(5-47) 
1 概率 是 1 一 Pr(vw) 
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其 中 
1 
Pru,) = Saar (5-48) 
Ui 是 神经 元 i 的 活动 水 平 ， 也 就 是 ， 
V= X wx (5-49) 
> ij 
jm 
口 


运用 这 个 学 习 策 略 更 新 玻 尔 兹 曼 机 器 的 突 触 权 值 [参见 式 (5-45) ] 需 要 两 平均 值 之 间 有 
差异 ， 且 两 平均 值 都 能 波动 。 因 此 ， 处 理 一 个 平衡 性 较 差 的 系统 或 运用 较 短 平 均 时 间 能 缩小 
更 新 周期 ， 但 是 将 发 生 较 差 的 权 值 更 新 {Aw} ， 并 且 最 终 需 要 更 多 的 更 新 周期 。 虽 然 玻 尔 兹 
曼 机 器 非常 慢 ， 但 是 在 解决 复杂 问题 方面 非常 有 效 。 由 于 玻 尔 兹 曼 机 器 计算 量 大 ， 并 且 存 在 
模拟 退火 过 程 ， 因 此 已 经 研究 了 其 他 不 同 的 学 习 算 法 。 例 如 ， 运 用 统计 力学 的 均 场 近似 值 
[33]， 通 过 用 确定 性 的 、 模 拟 神 经 元 代替 玻 尔 兹 曼 机 器 的 随机 双 极 状态 神经 元 来 减少 过 多 的 
计算 时 间 [34]。 


5.6 时 间 前 馈 网 络 概 述 


在 神经 网 络 中 (连续 或 离散 ) 时 间 元 素 是 学 习 过 程 中 非常 重要 的 因素 。 许 多 认 知 函数 
(如 语言 、 视 觉 、 电 机 控制 ) 的 正确 操作 依赖 于 时 间 。 当 时 间 元 素 包括 在 神经 网 络 中 时 ， 网 络 
可 以 执行 那些 没有 时 间 就 不 可 行 的 任务 。 如 ， 网 络 能 跟踪 与 非 静态 过 程 相关 的 输入 数据 的 统 
计 变 化 。 下 一 节 将 讨论 有 关 时 间 过 程 的 神经 网 络 数量 选择 。 在 每 种 情况 ， 考 虑 静态 神经 网 络 
结构 ， 并 且 引 入 网 络 的 时 间 属 性 是 为 了 将 动态 属性 并 人 结构 中 。 特 别 地 ， 将 短期 记忆 并 人 网 
络 是 为 了 时 间 延 迟 。 时 间 延 迟 允 许 网 络 变 为 动态 网 络 。 用 空间 依赖 性 代替 与 网 络 输入 有 关 的 
时 间 依 赖 性 。 因 此 ， 我 们 的 讨论 实际 上 涉及 静态 网 络 的 时 空 敏感 性 。 我 们 仅 就 所 关注 的 网 络 
相关 的 时 间 依 赖 性 发 表意 见 。 

下 面 是 时 间 网 络 的 最 常见 类 型 的 简明 概括 。 

1. 时 间 延 迟 神经 网 络 (TONN) 是 每 一 输出 层 神经 元 都 有 时 间 延 迟 的 前 馈 多 层 神经 网 络 。 
TDNN 已 经 应 用 在 语言 识别 问题 中 [35-37]。 

2. 有 限 冲 去 响应 (FIR) 前 馈 多 层 网 络 是 TDNN 的 推广 [38-40]。 它 有 FIR 数 字 过 滤器 代 赫 
TDNN 结 构 中 的 每 一 权 值 。 这 是 分 布 式 时 滞 前 馈 神 经 网 络 (DTLFNN) 的 基础 。 

3. 简单 递归 网 络 (SRN) 或 Elman 网 络 [41] 是 单 隐藏 层 前 馈 网 络 ， 它 具有 从 隐藏 层 神经 元 
输出 到 网 络 输入 的 反馈 连接 。 

4. 实时 递归 神经 网 络 (RTRNN) 有 两 层 ， 能 实时 学 习 [42]。 除 霍 普 非 尔 德 网 络 没有 隐藏 
神经 元 外 ， 其 余 同 霍 普 菲 尔 德 网 络 相似 。 

5. 管状 递归 神经 网 络 (PRNN) [43] 是 模块 结构 ， 其 中 每 一 模块 接收 网 络 输入 的 不 同 延 
迟 给 予 。 每 一 模块 是 同一 个 输出 神经 元 完全 连接 的 递归 网 络 。 这 类 网 络 除了 两 个 前 馈 连 接 之 
外 还 有 反馈 (MAJD) 连接 。 这 类 网 络 是 为 了 自 适应 预测 非 静 态 信 号 (如 语音 信号 ) 而 研 
究 的 。 

6. 非 线性 自 回归 滑动 平均 (NARMA) 神经 网 络 用 于 非 线性 系统 的 控制 和 辨识 (参见 
10.6.2 节 ) [44-46]. 
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5.7 简单 递归 网 络 


简单 递归 网 络 〈 通 常 称 为 Blman 网 络 ) [41] 是 单 隐藏 层 前 馈 神 经 网 络 。 它 具有 从 隐藏 层 神 
经 元 的 输出 到 网 络 输入 的 反馈 连接 。 该 网 络 结构 同 Jordan[47] 提 出 的 结构 相似 。 最 初 研究 SRN 
是 为 了 学 习 时 变 模式 或 时 间 序 列 ， 尤 其 是 字符 串 。 基 本 的 SRN 结 构 如 图 5-12 所 示 。 图 中 网 络 
的 上 部 分 包含 上 下 文 单元 。 这 些 单元 的 作用 是 在 前 时 间 步 复制 隐藏 层 输出 信号 。 


上 下 文 单元 
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图 5-12 SRN 或 Elman 神 经 结构 (其 中 z ”是 单位 时 间 延 迟 ) 


这 些 上 下 文 单元 的 上 且 的 是 什么 ? 实际 上 回答 很 简单 。 上 下 文 单元 的 目的 是 处 理 输 入 模式 
不 一 致 。 换 言 之 ， 可 能 发 生 的 模式 冲突 导致 从 单一 输入 模式 产生 多 种 输出 。 从 而 导致 标准 反 
向 传播 网 络 的 复杂 情形 。 在 SRN 中 ， 网 络 的 输入 〔( 即 图 5-12 中 的 x(h)) 是 前 时 间 步 隐藏 层 输出 
的 扩大 ， 即 x“《(k)。 因 此 ，SRN 中 提供 的 反馈 或 x“(h) 基 本 是 对 当前 输入 x(A) 建 立 上 下 文 。 这 样 可 
以 在 网 络 内 部 提供 一 种 机 制 来 区 别 发 生 在 不 同时 间 ， 但 本 质 上 相同 的 模式 。 上 下 文 单元 的 权 
值 固 定 。 但 是 ， 其 他 网 络 权 值 可 以 在 监督 训练 模式 下 使 用 具有 动量 的 误差 反 向 传播 算法 调节 
(参考 3.3.3 节 ) 。 
例 5.4 ”设计 一 个 SRN 来 检测 次 声 信号 的 最 高 振幅 〈 参 照例 10.8) 。 图 5-13 显 示 两 个 模拟 次 |222 
声 信号 (ERE) 。 它 可 能 是 两 个 火山 爆发 的 稳 态 次 声 信号 。 两 个 信号 均 有 一 个 50mHz 基 本 频 1223 
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率 ， 第 一 个 信号 有 2.54 巴 (BRM) 最 高 振幅 ， 第 二 个 信号 有 14 巴 ( 声 压 单位 ) 最 高 振幅 。 
样本 频率 假定 是 A = 1Hz。 两 个 模拟 次 声 事件 的 样本 连接 形成 长 204 的 输入 向 量 。 特 别 地 ， 来 
自 每 个 信号 的 输入 样本 改变 (每 个 复制 两 次 )。 也 就 是 说 ， 在 MATLAB 中 设计 成 包含 输入 抽 
样 的 向 量 是 INPUTS ， 定 义 为 


INPUTS=[signall signal2 signall signal2]; 


其 中 INPUTS E 入: 04，signall 包 含 来 自 图 $-13 的 第 一 个 信号 抽样 ，signa1l12 包 含 
图 5-13 中 的 第 二 个 信号 抽样 。 与 每 个 信号 相关 的 目标 值 反 映 各 自 的 最 高 振幅 。 所 以 ， 对 于 
signal1 的 每 个 抽样 〈 总 共 $1 个 ) ， 相 关 目 标 值 是 2.5 (这 是 使 用 在 MATLAB 中 的 向 量 T1)， 
对 于 signal2， 相 关 的 51 个 值 总 是 1 (在 MATLAB 中 的 向 量 T2 ) 。 这 些 也 连接 来 对 应 地 协调 
向 量 INPUTS 中 的 值 。 也 就 是 ， 在 MATLAB 中 向 量 TARGETS 包 含 如 下 目标 值 : 


T1=2.5*ones (1,51) ; 
T2=ones (1,51) ; 
TARGETS=[T1 T2 Tl T2]; 


其 中 TARGETS E RX, 
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图 5-13 两 个 模拟 次 声 信号 ， 均 有 50mHz 的 频率 


MATLAB 神 经 网 络 工具 箱 [10] 用 来 执行 模拟 。 主 要 的 目标 是 SRN (Elman 网 络 ) 作为 最 高 
振幅 探测 器 来 执行 ， 即 ， 使 用 训练 数据 {INPUTS, TARGETS} 学 习 两 个 最 高 振幅 之 间 的 区 别 。 
在 MATLAB 中 ，SRN (作为 Elman 网 络 被 提 及 ) 在 隐藏 层 神经 元 中 有 tansig 和 激活 函数 (2.3 节 讨 
论 的 双 曲 线 正切 函数 有,,) ， 在 输出 神经 元 中 有 purelin (线性 ) RRR. HPPA, 
Elman 神 经 网 络 有 单一 输入 ， 单 一 输出 神经 元 ， 带 有 15 个 隐藏 (递归 ) 神经 元 。 网 络 顺 序 处 理 
输入 。 也 就 是 ， 在 向 量 INPUTS 和 TARGETS 中 的 “时 间 ” 抽 样 是 顺序 处 理 的 。 

在 MATLAB 中 Elman 网 络 的 初始 化 使 用 函数 initelm 来 执行 。 该 函数 接受 作为 输入 : (1) 输 
入 数据 (INPUTS), (2) 隐藏 (递归 ) tansig 神 经 元 的 数量 ，(3) 目标 输出 (TARGETS), 
对 于 第 三 个 变量 ， 可 以 选择 给 定 输出 purelin 神 经 元 数量 代替 目标 输出 到 初始 化 网 络 。initelm 
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函数 的 输出 是 两 个 初始 权 值 矩阵 和 用 于 网 络 的 两 层 的 偏 置 。MATLAB 函 数 trainelm 用 来 训 
练 Elman 网 络 。 对 于 多 层 前 馈 网 络 该 消 数 使 用 具有 动量 反 向 传播 学 习 规 则 (参见 3.3.3 节 )。 矣 
数 tzainelam 接 收 为 初始 权 值 矩阵 的 输入 和 来 自 initelam 函 数 的 偏 置 ， 该 函数 带 有 输入 、 目 
标 值 和 一 个 可 选择 训练 参数 向 量 TP。 在 训练 以 后 ，MATLAB 函 数 traine1lm 的 输出 是 最 终 网 
络 权 值 算 阵 和 偏 置 。 下 面 是 MATLAB 命 令 ， 用 来 初始 化 和 训练 网 络 ， 

[W1,Bl1,W2,B2]=initelm (INPUTS,15,TARGETS) ; 

TP=[10 5000 2 0.003 1.05 0.7 0.95 1.04]; 

[W1,B1,W2,B2}=trainelm (W1,B1,W2,B2,INPUTS,TARGETS,TP) ; 


在 训练 参数 向 量 TP 中 ， 所 有 显示 的 值 是 默认 值 ， 除 非 第 一 个 值 10 (两 个 显示 之 间 的 回合 数 )、 
第 二 个 值 5000 (训练 的 最 大 回合 数 )、 第 三 个 值 2 (总 平方 和 误差 目标 )。 

在 2609 个 训练 回合 后 ， 满 足 误差 目标 ， 如 图 5-14 显 示 。 将 该 网 络 内 实际 目标 值 和 由 网 络 
产生 的 估计 一 起 绘 出 ， 图 5-15 显 示 出 训练 Elman 网 络 后 的 结果 。 用 INPUTS 中 输入 数据 完成 训 
练 后 ，MATLAB 消 数 simuelm 产 生 网 络 输出 。 也 就 是 


OUTPUTS=simueim (INPUTS,W1,B1,W2,B2) ; 


正如 从 图 5-15 中 能 看 到 的 ，Elman 网 络 在 检测 两 个 信号 的 正确 最 高 振幅 方面 具有 相当 好 的 
性 能 。 
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2 609 个 训练 回合 的 网 络 总 平方 误差 
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平方 和 误差 [对 数 尺 度 ] 
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图 5-14 训练 期 间 的 网 络 总 平方 误差 


对 于 任何 神经 网 络 来 说 ， 其 重要 属性 是 推广 能 力 。 假 设 提 交 两 个 相同 频率 但 不 同 最 高 振 
幅 的 次 声 信号 到 训练 网 络 中 。 这 是 两 个 该 神经 网 络 以 前 没 见 过 的 信号 。 第 一 个 信号 有 0.75 的 
最 高 振幅 ， 第 二 个 信号 的 最 高 振幅 是 1.75。 再 使 用 MATLAB 函 数 simuelm， 网 络 输出 能 够 使 
用 “新 ”测试 输入 数据 来 产生 。 这 些 结论 在 图 5-16 中 给 出 。 从 图 中 显而易见 网 络 没 有 推广 。 
为 了 提高 网 络 的 推广 能 力 ， 需 要 更 多 的 训练 输入 来 更 进一步 训练 网 络 。 也 就 是 ， 输 入 更 多 的 
有 不 同 最 高 振幅 的 训练 信号 。 
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采用 训练 数据 的 振幅 探 


测 测试 。 


振幅 





时 间 步 


采用 未 知 测 
试 输入 的 振 
， 幅 探测 测试 


1 
L] 
I 
1 
4 
1 
[中 
1 
t 
1 
1 
t 
' 
i} 
1 
i} 
i] 





0 50 100 150 200 250 
时 间 步 


图 5-16 对 于 例 5.4 使 用 测试 数据 的 最 高 振幅 探测 结果 
5.8 时 延 神经 网 络 


时 于 神 经 网 络 运用 时 间 延 迟 来 执行 时 间 处 理 。 它 实际 上 是 网 络 输入 按时 间 相 继 延 迟 的 前 馈 
神经 网 络 。 图 5$-17 显 示 了 对 输入 向 量 的 每 一 元 素 具 有 多 重 延 迟 的 单一 神经 元 。 这 是 前 镇 TDNN 
(不 失 一 般 性 ， 忽 略 模 型 中 的 可 能 的 偏 置 项 ) 的 神经 元 “构建 模块 。 当 输入 向 量 x( 避 按时 间 发 
展 时 (是 离散 时 间 指 数 )， 在 神经 元 中 计算 出 过 去 的 p 个 值 。 建 立 的 输入 时 间 序 列表 达 式 为 
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X = {x(0), x(1), =, x(m)} (5-50) 
Auth, ERREX a IERA WIZ RT el Se PE A (F) 向 量 序 列 x(R(k = 0, 1,…, mA. Ey 
经 元 结构 中 输入 的 过 去 值 利 用 图 $-17 所 示 的 时 间 延 迟 确定 (p < m)。 单 一 神经 元 需要 的 权 值 总 
数 为 (p + 1)m。 





x(k) O 


wa(p) 


图 5-17 具有 nn 输入 和 每 一 输入 p 个 延迟 的 基本 TDNN 神 经 元 (k 是 离散 时 间 指数 ) 


单一 神经 元 模型 可 扩展 为 多 层 结构 。 如 前 讲述 ，TDNN 结 构 合 并 具有 时 间 延 迟 的 前 馈 多 层 
网 络 。TDNN 的 典型 结构 是 仅 在 网 络 输入 层 延迟 的 分 层 结构 。 在 层 间 合 并 延迟 是 可 能 的 。 
TDNN 可 使 用 改进 的 标准 反 向 传播 算法 来 训练 (参见 3.3.1 节 )。 基 本 上 ， 若 假定 训练 集 由 无 数 
与 目标 (输出) 数据 相 一 致 的 移 位 输入 构成 ， 则 在 训练 期 间 ， 网 络 能 够 学 习 输入 模式 的 显著 
特征 。 每 一 隐藏 单元 不 仅 观察 输入 而 且 是 输入 的 p 个 延迟 。 图 5-18 显 示 了 用 于 语音 识别 ， 尤 其 
是 音素 识别 [36] 的 三 层 TDNN 的 例子 。 该 网 络 是 TDNN 在 网 络 输入 层 和 隐藏 层 运用 时 间 延 迟 的 
例子 。 在 图 5-18 中 ， 输 入 是 由 信号 的 功能 谱 (参照 10.10.2 节 ) 计算 得 到 的 16 个 melscale 系 数 。 


5.9 分 布 式 时 滞 前 馈 神 经 网 络 


分 布 式 时 涪 前 馈 神经 网 络 (DTLFNN) 从 某 种 意义 上 来 说 是 时 间 元 素 的 分 布 贯 穿 整 个 网 
络 。DTLFNN 的 基本 构成 块 是 图 5-19 所 示 的 简单 非 线 性 神经 元 过 滤器 。 有 意思 的 是 ， 实 际 上 
这 与 图 5-17 描 述 的 TDNN 神 经 元 结构 是 一 样 的 。 对 于 图 5-17 的 多 个 输入 的 神经 元 ， 神 经 元 的 每 
一 输入 xi = 1, 2, …, ) 用 有 限 脉 冲 响应 过 滤器 过 滤 (由 于 我 们 考虑 的 是 离散 时 间 过 程 ) 
[48]。 特 别 地 ， 参 看 图 5-17， 线 性 组 合 器 的 输出 可 表示 为 


U(k) = v,(k) + K+. +u, (k) = dre (5-51) 


其 中 
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vu, (k) = w,(0)x;(k) + w; (x; (k - 1) + w,(2)x;(k - 2) +--+ w;(p)x,(k - p) 
- Sw -r) ey 


r= 


其 中 i= 1, 2, =n. Ñ (5-52) 中 是 卷 各 和。 在 域 ? 中 ， 可 由 式 (5-52) 得 出 


Viz) = WiO)X(z) + wi(1)z Xi(z) + wi(2)z Xi(z) +++ wp)z-?X(z) (5-53) 
或 作为 传递 函数 有 
H,(z) = 2 = w,(0)+w,(1)z | +w,(2)z> +--+ w;(p)z” (5-54) 
或 
á ; P : p-l (2)zP? 4... i 
Riis Vi(z) _ w(O)z? + w,(1)z”™ +w(2)z” +---+w,(p) (5-55) 
X;(z) zP 


输出 层 
IR 
IR 隐藏 层 1 
2 
ES 
Kk 
a 输入 层 
a 
3 
3 
v 
E 
ba 





图 5-18 Waibel et al.[36] 使 用 的 用 于 音素 识别 的 (=) 层 TDNN 结 构 


EA (5-54) 或 式 (5-55) H, H; (2) 是 FIR 过 滤器 的 传递 函数 。 因 此 ， 图 5-19 所 示 的 每 一 FIR 
过 滤器 块 是 由 式 (5-54) 或 式 (5-55) 给 出 的 特定 FIR 过 滤器 的 传递 函数 H;(z)，H;(z) 中 的 权 值 
实际 上 是 分 子 多 项 式 的 系数 ， 且 规定 传递 函数 的 零点 存在 于 复 的 z 平 面 。 图 5-19 中 对 于 网 络 第 
4 神经 元 的 线性 组 合 器 的 输出 为 
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U (k) = sp (k) + spa (k) +77 s p(k) = >, sy (k) (5-56) 


对 于 第 4 神经 元 ， 比 较 式 (5-56) 和 式 (5-51)， 可 发 现 某 些 单个 过 滤 的 输入 为 sj(k) = vi(k)。 
尤其 ， 图 5-19 中 的 时 间 域 中 ， 每 一 过 滤 的 输入 由 卷 积 和 表示 为 


sj(k) = > w ,(r)x,(k - 1) (5-57) 


i= 1, 2, hN, j= 1, 2, “6d, r= 0, 1, “yD, 其 中 p 是 延迟 的 总 数 。 因此 ， 网 络 中 第 /神经 元 的 
输出 表示 为 


y,(k) = flv; (k) = d$ =| = mp) > w ,(r)x,(k - 中 (5-58) 
DTLFNN 由 图 5-19 所 示 形 式 的 神经 元 层 构 成 ， 神 经 元 输出 形式 由 式 (5-58) 给 出 。 





图 5-19 非 线 性 神经 元 过 滤器 


DTLFNN 用 监督 学 习 算法 训练 ， 特 别 是 时 间 反 向 传播 算法 [38]。 这 一 训练 算法 是 标准 反 向 
传播 训练 算法 的 时 间 推 广 。 从 [38] 中 可 知 ， 推 广 的 时 间 反 向 传播 算法 可 总 结 如 下 : 
根据 下 式 更 新 适当 的 网 络 权 值 (J) 向 量 


wir (k +1) = wi (ke) — WO (Kx (k) (5-59) 
其 中 
-e Of TY, 对 于 输出 层 的 神经 元 j 
2 (= je A7'(kw 对 s 隐 蕊 层 的 神经 元 / (5-60) 


式 (5-60) Hh, e(k)EHNRTiRZ, H 
A, Ck) =[8;(k) ô, (k+1) … Oi(k+p)] 


习题 
5.1 考虑 由 两 个 带 有 零 闵 值 的 神经 元 组 成 的 简单 霍 普 非 尔 德 神经 网 络 。 网 络 突 触 权 值 算 阵 
如 下 


"| 


网 络 存 在 四 种 可 能 的 状态 ， 这 四 种 状态 给 定 如 下 
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1 ~I -1 1 
s-h p] eG] [a] 
这 些 显示 在 图 5-20 中 , Kx, 5x, ( 黑 “ 点 ”) 是 稳定 平衡 状态 ， 而 x 与 x; 不 是 (A 
“点 ”)。 


x2 





-1 
日 
图 5-20 两 个 神经 元 霍 普 菲尔德 网 络 的 状态 


(a) 为 了 表示 这 种 情形 ， 提 交 四 个 上 面 的 输入 到 霍 普 非 尔 德 网 络 并 且 观 察 输 出 。 也 就 是 
EAR (5-10) 中 异步 更 新 表达 式 。 你 能 够 推断 出 什么 ? 
(b) 使 用 式 (5-14) 中 的 能 量 函 数 ， 能 够 得 出 与 部 分 (a) 中 同样 的 结论 吗 ? 


Bo52 假定 下 面 5 个 双 极 原型 记忆 


N 
w 
— 


5.3 


o,={—1,-1,1,1,1,1,1,1,1,-1,-1, 1, 1,-1, 1, 1] 
»=[—1,1,1,-1,-1,—1,1,—1, 1, 1, 1, 1,-—1, 1,1, 1)" 
o;=[1, 1,1,—1, 1, 1,1, 1, 1,1, 1,-1,—1,-1,-1,-1)" 
o,=[-1,1,1,-1,-1, 1, 1,1,-1,-1,-1, 1, 1,-1, 1,-1/ 
$; =[1,-1,-1, 1,1, 1,1, 1, 1, 1, 1,-1,—1,-1,—1, 1] 


(a) FAS ith, BIL 164 A HY ESE OR BA BT PL BE 

(b) 使 用 原型 记忆 {$1, 物 , 3, Qa $5} 中 的 每 个 作为 到 部 分 (a) 中 设计 的 霍 普 菲尔德 网 络 的 
输入 。 也 就 是 说 ，x = 9 z = pr …， 显 示 出 能 够 在 某 一 时 间 步 内 使 用 式 (5-10) 的 
异步 更 新 表达 式 来 回忆 原型 向 量 。 

(c) 图 $-21 给 出 了 根据 用 户 提供 的 位 误差 率 (BER) 值 ，MATLAB 函 数 产 生 一 个 输入 向 
量 噪 声 。 在 图 $-21 中 的 MATLAB 国 数 noise 在 输出 中 产生 不 仅仅 是 输入 向 量 的 破坏 
副本 ， 也 在 初始 输入 向 量 中 作 索 引 ， 该 向 量 内 的 元 素 已 经 被 “ 捡 牢 "”。 使 用 每 个 输入 ， 
即 z，x>，…， 通 过 实验 ， 决 定 BER 的 一 个 合理 值 以 便 损坏 的 原型 : (1) 总 能 够 恢复 ， 
(2) 能 够 在 95% 的 时 间 内 恢复 ，(3) 能 够 在 90% 的 时 间 内 恢复 。 

问题 5.2 的 一 个 变化 。 除 “句点 ”被 图 5-22 中 的 字母 M 代 在外， 图 5-5 中 同样 的 5 个 字符 作 

为 发 展 霍 普 菲 尔 德 网 络 的 原型 来 使 用 。 

(a) 用 字母 M 替 代 句 点 建立 144 个 神经 元 的 霍 普 菲尔德 神经 网 络 来 重复 执行 习题 5.2 的 步 
骤 。 显 示 突 触 权 值 扎 阵 作 为 与 图 $-6 中 显示 图 像 相似 的 灰 度 图 。 

(b) 证 明 每 个 字符 在 某 时 间 步 内 能 够 使 用 式 (5-10) 的 异步 更 新 表达 式 来 逐步 回忆 ， 该 表 
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达 式 具有 部 分 (a) 开发 的 突 触 权 值 矩 阵 。 每 个 到 网 络 的 输入 将 是 字符 图 像 的 向 量化 
形式 ， 而 作为 “被 改造 的 ”字符 图 像 用 来 显示 网 络 输出 。 使 用 MATLAB 函数 
reshape 来 实现 。 


function [XC,I] = noise (X,BER) 

% [XC,I] = NOISE(X,BER) generates a noisy 

% version of the input vector X, i.e., XC. 

% INPUTS: 

% X: Uncorrupted input vector, can only have 

% bipolar values, i.e., [-1,1]. 

% BER: bit-error-rate given in percentage, 
for example, BER=20 means that on the 
average 20% of the elements in the 
vector will be ‘‘toggled’’ (or the polarity 
changed) . 


% OUTPUTS: 

% XC: Corrupted version of the input vector X 
% I: Indices in the original input vector X 
% where the elements were ‘‘toggled.’’ 


% 


N=rand (size (X) ); 
XC=X; 
T=1-BER/100; 
for i=1:length(X) 
if N(i)>=T 
if x(i)==1 
xC(i)=-1; 
else 
XC (i) =+1; 
end 
end 
end 
I=find([X-XC]); 








图 5-21 产生 带 有 定义 位 误差 率 输入 向 量 的 噪声 的 MATLAB 函 数 noise 





2 4 6 8 10 12 
M pattern 


图 5-22 替代 问题 5.2 中 图 5-5 的 “句点 ”字符 的 字母 M 


(c) 在 每 个 字符 图 像 中 引入 了 30% 的 错误 。 也 就 是 ， 在 字符 图 像 中 30% 的 像素 有 一 个 极 
性 改变 ， 也 就 是 说 ， 由 黑色 像素 变 为 白色 像素 ,或 相反 。 使 用 图 5-23 中 的 MATLAB 
函数 noise2 来 “破坏 ”每 个 图 像 。 注 意 : MATLAB 函 数 类 似 于 问题 3.9 (图 3-18 ) 232 
中 的 errors 函 数 和 问题 5.2 (图 5-21) 中 的 noise 函 数 。 事 实 上 ， 函 数 noise2 是 |233 
问题 5.2 中 noise 的 二 维 表达 形式 。 使 用 式 (5-10) 中 的 异步 更 新 表达 式 ， 使 用 
noise2 产 生 被 破坏 的 输入 ， 需 要 多 少 次 迭代 来 回忆 存储 在 霍 普 菲 尔 德 网 络 记忆 中 
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的 正确 字符 ? 





function [XC, I,J] = noise2(X,BER) | 
% {XC,I,dJ] = NOISE2(X,BER) generates a noisy 

% version of the input matrix X, i.e., XC. 

% INPUTS: 

% X: Uncorrupted input matrix, can only have 
bipolar values, i.e., [-1,1]. 
bit-error-rate given in percentage, 
for example, BER=20 means that on the 


w 
四 
2 


average 20% of the elements in the 
matrix will be ‘‘toggled’’ (or the polarity 
changed). 
OUTPUTS: 
XC: Corrupted version of the input matrix X 
I: vector of row indices in the original input 
matrix X where the elements were ‘‘toggled.’' 
vector of column indices in the original input 
matrix X where the elements were ‘‘toggled.’’ 


X P VPP Ge VPP 
Qq 


[nr,nc]=size(X); 
N=rand(size(X)); 
XC=X; 
T=1-BER/100; 
for i=l:nr 
for j=1:ne 
if N(i,j)>=T 
if X(i,j)== 
xc(i,j)=-1; 
else 
XC (i, j)=+1; 
end 
end 
end 
end 
{I,d)=find([X-XC]); 





d 
图 5-23 产生 带 有 已 定义 的 位 误差 率 输入 向 量 的 噪声 的 MATLAB 函 数 noise2 





5.4 考虑 由 存储 如 下 两 个 原型 记忆 的 5 个 神经 元 组 成 的 霍 普 菲尔德 网 络 : 


ġ =0,1,—1,1, 7 中 =[1 一 11 一 1 
(a) 使 用 $ Alo, Ir EEE OR IS, HE LS R pe 
(b) 使 用 式 (5-10) 的 异步 更 新 表达 式 ， 证 明 两 个 原型 记忆 能 够 经 过 一 次 迭代 的 记忆 来 恢 
复 。 
(c) 考虑 两 个 向 量 : 
x,=[1,1,-1,-1,-1]" x,={-1,1,-1,1,-1]' 
FHS A REESE, RE TA POL a PI RR 
可 以 当 作 一 个 网 络 的 基本 记忆 。 两 个 向 量 中 任 一 个 (或 全 部 ) 能 够 隐 含 地 存储 在 由 
部 分 (a) 开发 的 霍 普 菲尔德 记忆 吧 ? 给 出 详细 分 析 来 证 明 结论 。 
考虑 一 个 如 下 定义 的 最 优化 问题 : —40<x,<40F -40<x,<40, x 和 x。， 求 下 面 函 数 的 
最 小 值 ， be BH — 40 <x, << 409 — 40 <x, < 40 MEENA, Ex, RARR: 
(x, - 10)? +(x, -107 
100 
使 用 5.4 节 的 模拟 退火 算法 来 完成 最 优化 任务 。 函 数 Axi, xz) 可 以 看 作 一 个 能 量 函 数 。 变 量 
xi 和 xz 的 整 型 值 可 最 优化 调用 ， 该 算法 步骤 3 需要 如 下 修改 


x,=x+ Ax 


f(x x)= (x, -30) +(x, -20) + 40sin’(x,x,)+ exp|- 








5.6 


5.7 
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其 中 Ax 是 一 个 从 下 面 集合 随机 选择 的 向 量 


s- EEEH Es} Ls} Lah 
oP lay ayy ary opt- f-1 
使 用 式 (5-33) 中 的 次 优 “ 冷 却 进度 表 ”， 该 进度 表 的 渐 缩 因子 设置 为 a = 0.99。 对 不 同 
起 始点 执行 最 优化 ， 并 且 记 录 对 于 发 现 算法 的 解决 方案 的 迭代 次 数 。 
模拟 退火 经 常用 来 解决 多 维 组 合 最 优化 问题 。 在 这 些 问题 中 最 优化 目标 是 决定 一 个 n 维 
向 量 ， 该 向 量 最 小 化 下 列 基 本 限制 条 件 下 的 能 量 函 数 多 (x) 
x=1 或 x,=0 
也 就 是 说 ， 
x, € (0, 1 其 中 天 = 1 2 n 
常用 的 一 些 限制 增加 到 最 优化 问题 。 向 量 x 的 所 有 元 素 要 么 是 1 要 么 是 0， 作 为 一 个 二 值 
向 量 。 一 个 大 小 为 mn 的 由 所 有 二 值 向 量 组 成 的 集合 当 作 构 造 空间 ， 并 且 组 合 最 优化 问题 
能 够 当 作 搜 索 使 能 量 函数 能 够 达到 全 局 最 小 的 某 点 (也 就 是 ， 向 量 x*) 的 构造 空间 。 
作为 简单 组 合 最 优化 问题 的 一 个 例子 ， 考 虑 能 量 函 数 的 最 小 化 ， 该 能 量 函 数 定义 为 : 
& (x) = 12x, + 14x, + 22x, + 38x, + 15x; +13xe +17x, + 28x, + 4xo 
符合 
x,E {0,1} i=1,2,.,9 (c-1) 
Xp AX, + 2x3 + 6x4 + 7x5 + Bxe + 9x, + 3x; + 1lxo 生 35 (c-2) 
写 一 个 使 用 模拟 退火 方法 来 解决 上 面 最 优化 问题 的 计算 机 程序 。 算 法 应 该 满足 以 下 条 件 : 
(a) 随机 初始 化 起 始点 。 起 始点 必须 满足 限制 式 (c-1) 和 式 (c-2)。 
(b) 设置 初始 温度 并 且 选 择 冷却 进度 表 。 
(c) 通过 在 构 形 空间 随机 选择 向 量 分 量 和 通过 从 0 到 1 或 从 1 到 0 改变 它 的 值 来 执行 转换 。 
(d) 接受 或 拒绝 在 米 特 罗 波 利 斯 标准 基础 上 的 变化 (参考 5.4 市 )。 
(e) 继续 构 形 空间 搜索 直到 
。 到 达 全 局 最 小 值 或 
+ 温度 降 到 预先 设 定 的 较 小 值 之 下 ， 并 且 在 构造 空间 内 没有 明显 的 变化 接受 或 
。 超过 迭代 最 大 次 数 。 
绝 大 多 数 神经 网 络 训练 算法 建立 在 局 部 搜索 技术 基础 之 上 (最 速 下 降 、 共 圈 梯 度 、 牛 顿 
方法 等 等 )。 所 有 建立 在 局 部 搜索 基础 之 上 的 算法 有 收敛 到 一 个 误差 实现 表面 的 局 部 最 
小 值 的 趋向 ， 因 此 ， 提 供 一 个 次 优 的 问题 解决 方案 。 用 于 帮助 训练 网 络 的 算法 从 一 个 局 
部 最 小 值 中 跳 离 的 技术 之 一 是 增加 入 工 高 频率 噪声 到 能 量 代 价 函 数 。 例 如 ， 自 适应 噪音 
项 能 够 按照 如 下 算法 加 入 能 量 函 数 中 
&(w,N) = F(w)+ TIAN’ x 


其 中 区 (w,N) 是 一 个 扰动 能 量 函 数 ，w 是 网 络 权 值 向 量 ，N 是 一 个 每 个 分 量 为 一 个 随机 白 

噪声 过 程 产生 的 噪声 向 量 ，T(h) 是 一 个 决定 能 量 函 数 扰动 规模 的 参数 。 通 常 T(A) 的 规模 

随 训练 过 程 减 小 。 

(a) 证 明 一 个 用 于 校正 调整 在 扰动 代价 函数 基础 之 上 的 权 值 的 最 速 下 降 学 习 规 则 有 如 下 
形式 


m 
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w(k +1) = w(k) + pp 3 E(w) 


+ rw| 
(b) 考虑 求 如 下 定义 的 能 量 函 数 的 全 局 最 小 值 问题 
Ew)=cos (3w) + 0.4Jw +1] Iw<10 


国 数 的 曲线 图 如 图 5-24 所 示 。 正 如 我 们 看 到 的 ， 函 数 有 几 个 局 部 最 小 值 。 应 用 带 有 最 
速 下 降 的 扰动 能 量 函 数 技术 求 给 定 函 数 的 全 局 最 小 值 。 
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图 5-24 问题 5.7 中 最 小 化 的 能 量 函 数 曲线 图 


B58 设计 一 个 简单 递归 网 络 ， 即 一 个 Elman 网 络 ， 它 能 够 学 习 探测 到 三 个 信号 的 最 高 振幅 。 
这 些 信号 与 问题 5.4 中 的 相似 。 特 别 地 ， 这 是 三 个 正弦 信号 ， 均 带 有 30mHz 的 频率 〈 模 拟 
次 声 信号 )， 从 0 到 100 秒 时 间 上 采样 ， 频 率 均 为 1Hz。 第 一 个 信号 振幅 最 高 为 $5， 第 二 
信号 最 高 振幅 为 2.5， 第 三 个 信号 最 高 振幅 为 1。 下 面 的 MATLAB 命 令 将 产生 适当 的 信号 
和 相关 的 目标 值 ; 
训练 信号 
t=[0:100); 
signall=5*sin (2*Pi*0.03*t) ; 
signal2=2.5*sin (2*Pi*0.03*t) ; 
signal3=sin (2*Pi*0.03*t) ; 
目标 值 : 

T1=5*ones (1,101) ; 
T2=2.5*ones (1,101) ; 
T3=ones (1,101) ; 


与 例 $.4 一 样 ， 复 制 信号 两 次 ， 因 此 每 个 回合 SRN 依 次 训练 ， 该 顺序 通过 重复 每 个 波形 两 

次 形成 (明显 地 相关 目标 值 被 适当 地 重复 )。 

(a) 使 用 MATLAB 神 经 网 络 工具 箱 1[10] 函 数 ijnitelim、trainelm 和 simuelm 来 初始 化 、 
训练 和 测试 网 络 。 用 递归 (隐藏 ) 神经 元 数量 和 训练 参数 进行 测试 。 需 要 多 少 训 练 回 
合 才能 得 到 合理 结果 呢 ? 也 就 是 说 ， 使 用 神经 网 络 工具 箱 中 的 MATLAB 函 数 
simuelm， 使 用 训练 数据 作为 网 络 输入 ， 并 且 得 到 信号 最 高 振幅 的 估计 。 对 于 相同 
的 曲线 图 ， 画 出 其 信和 号 的 目标 值 和 信号 最 高 振幅 的 估计 值 ， 你 能 够 推断 出 什么 ? 

(b) 产生 三 个 30mHz 正 弦 测 试 信号 和 相关 目标 值 ， 与 训练 数据 相似 ， 第 一 个 信号 的 最 高 
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振幅 是 5.5， 第 二 个 信号 的 最 高 振幅 是 3， 第 三 个 信号 的 最 高 振幅 是 1.75。 这 是 部 分 (a) 
中 训练 的 SRN 以 前 未 见 过 的 三 个 信号 。 使 用 MATLAB 函 数 simuelm， 并 将 信号 (以 
前 的 复制 形式 ) 输入 到 训练 的 SRN 中 。 在 同一 曲线 图 上 ， 画 出 信号 的 目标 值 和 信和 号 
的 最 高 振幅 的 估计 。 你 能 推断 出 什么 ?” SRN 进 行 了 推广 吗 ? 如 果 结 果 不 令 人 满意 ， 
做 什么 来 改进 结果 ? 

设计 一 个 SRN 来 实现 频率 分 离 。 

(a) 在 MATLAB 中 产生 两 个 单位 振幅 的 正弦 信号 ， 第 一 个 信号 有 频率 70mHz， 第 二 个 信 
号 有 频率 30mHz。 在 从 0~ 50 秒 周期 内 两 个 信号 均 假定 以 1Hz 抽 样 。 

(b) 选择 频率 目标 值 的 适当 描述 。 使 用 MATLAB 神 经 网 络 工具 箱 中 的 Elman 网 络 函 数 ， 训 
练 SRN， 使 其 能 够 达到 使 用 15 个 递归 (隐藏 ) 层 神 经 元 的 精度 的 合理 水 平 。 用 各 种 
训练 参数 测试 ， 你 能 从 得 到 的 结果 中 推断 出 什么 ? 

OM (1) 不 同 数 量 的 递归 层 神 经 元 ，(2) 不 同 表 示 的 频率 目标 值 和 (3) 训练 参数 来 
测试 。 与 部 分 (b) 中 得 到 的 结论 比 ， 有 任何 改进 吗 ? 

(d) 在 完成 频率 估计 的 SRN 训 练 后 ， 如 果 结 果 令 人 满意 ， 那 么 使 用 该 网 络 ， 在 20~60mHz 
范围 内 ， 用 不 同 频率 的 一 致 振幅 的 正弦 信号 测试 。 针 对 网 络 识别 其 他 频率 的 能 力 你 
能 够 推断 出 什么 ? 
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第 6 章 用 神经 网 络 解决 最 优化 问题 


6.1 概述 


本 章 的 主要 目的 是 演示 神经 网 络 解决 约束 最 优化 的 问题 。 一 般 而 言 ， 约 束 最 优化 问题 假 
设 一 些 目 标 代价 函数 的 最 小 化 是 受 限于 加 在 独立 变量 上 的 各 种 各 样 的 约束 。 在 数学 上 ， 约 束 
最 优化 问题 可 以 用 公式 表达 如 下 : 

最 小 化 

F iA sR) (6-1) 
ZRF 
站 Ci X=0 1=1,2,--,m ° (6-2) 


在 各 种 各 样 的 科学 与 工程 领域 中 ， 包 括 信号 处 理 、 回 归 分 析 、 统 计 、 运 筹 学 等 等 ， 都 经 
常 遇 到 这 些 类 型 的 最 优化 问题 。 由 于 它们 在 实际 应 用 中 的 重要 性 ， 已 被 广泛 研究 ， 并 且 已 经 
找到 了 许多 数值 方法 ， 这 些 方 法 可 以 在 参考 文献 [1-10] 中 找到 。 然 而 ， 在 这 些 方法 中 ， 大 多 数 
需要 大 量 的 计算 ， 而 且 并 不 适合 于 需要 实时 或 近似 实时 最 优化 结果 的 应 用 。 神 经 网 络 方法 为 
解决 约束 最 优化 问题 提供 了 一 个 不 同 的 发 展 方向 ， 通 过 使 用 具备 高 度 并 行 计算 能 力 的 相对 简 
单 的 神经 网 络 体系 结构 ， 即 使 相对 复杂 的 最 优化 问题 也 可 以 实时 解决 。 

本 章 介绍 几 种 解决 一 些 重要 类 型 的 约束 最 优化 问题 的 神经 网 络 算法 : 

1. 线性 规划 。 

2. 二 次 规划 。 

3. 非 线性 连续 约束 最 优化 问题 。 


6.2 解决 线性 规划 问题 的 神经 网 络 

线性 规划 (linear programming, LP) 是 约束 最 优化 问题 的 最 简单 形式 。 线 性 规划 假设 目 
标 函 数 和 约束 方程 是 独立 变量 的 线性 组 合 。 根 据 式 (6-1) 和 式 (6-2)， 对 于 LP 情形 ， 可 以 把 
一 般 约 束 最 优化 问题 的 方程 组 改写 如 下 : 


最 小 化 
Feared” Der (6-3) 

受 限 于 
A,X, + Qi + + di = b, (6-4) 


AXi + AX 十 … + A,X, = by (6-5) 


An IXI + An, 2X2 机 十 GmnXn 一 bm (6-6) 
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x, 20, x, 20, =, x, 20 (6-7) 
其 中 m <n, ap b, cCRRRBER, x 是 独立 变量 ， 其 值 待定 以 使 得 目标 函数 最 小 化 。 因 为 有 多 
种 常用 符号 ，LP 问 题 可 以 多 种 形式 陈述 。 式 (6-3) ~ (6-7) 的 形式 通常 称 为 LP 问题 的 标 
准 形 式 。 标 准 形 式 可 以 用 更 紧凑 的 向 量 矩 阵 符号 ， 改 写 如 下 : 


最 小 化 
f(x) = cx (6-8) 
受 限 于 
Ax =b (6-9) 
和 
x>0 (6-10) 


其 中 x, c E R! A ER”, b ER”! 

当 用 公式 表达 LP 问 题 时 ， 发 现 这 些 约束 可 以 由 线性 等 式 和 不 等 式 的 混合 来 表达 。 此 外 ， 
独立 变量 不 一 定 需要 满足 式 (6-10) 。 然 而 ， 可 以 看 出 无 论 初始 的 公式 表达 是 怎样 的 ， 每 个 LP 
问题 都 可 转化 为 标准 形式 。 向 标准 形式 的 转化 可 以 执行 如 下 : 

1. 目标 函数 Ax) = cx 的 最 大 化 可 以 用 f(x) = 一 cx 的 最 小 化 来 代替 。 

2. 不 等 式 约束 形式 如 


D ax; <b, (6-11) 
= 
可 以 写作 
Dai) + Fm =b; (6-12) 
J= 


其 中 zt > 0 是 一 个 新 变量 ， 通 常 称 为 剩余 变量 。 
3. 不 等 式 约束 形式 如 


Da >b, (6-13) 


jal 


可 以 写作 


DA -xan =b, (6-14) 


HP xp > 0 是 一 个 新 变量 ， 通常 称 为 松弛 变量 。 
4. 如 果 约 束 x; 之 0 不 适用 ， 变 量 x 可 以 用 两 个 新 变量 替代 ， 使 得 
x, = MV) — x2) (6-15) 
H 
>0 xPO 
使 用 式 (6-11) ~- 式 (6-15)， 可 以 把 每 个 LP 问题 转化 为 标准 形式 。 然 而 ， 可 以 看 出 每 个 
转化 得 到 的 等 式 都 引入 一 个 附加 的 变量 ， 由 此 增加 了 问题 的 维 数 。 鉴 于 这 个 原因 ， 在 神经 网 


络 方 法 中 用 LP 问题 的 原始 形式 考虑 问题 可 能 比 把 它 转 化 为 标准 形式 更 好 一 些 。 
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LP 问 题 的 解 

解决 LP 问题 可 以 看 作 是 在 向 量 空间 中 搜索 独立 变量 的 最 优 向 量 。 最 优 向 量 需 要 满足 所 
有 约束 ， 同 时 使 得 目标 函数 最 小 化 。 式 (6-9) 中 给 出 了 约束 方程 组 在 由 独立 变量 向 量 构 成 的 
n 维 向 量 空间 中 确定 的 m 个 超 平面 。 式 (6-9) 中 的 超 平面 和 式 (6-10) 中 的 非 负 约 束 形成 了 一 
个 多 维 多 边 形 ， 通 常 称 为 可 行 域 。 每 个 满足 式 (6-9) 和 式 (6-10) 的 独立 可 变 向 量 都 称 为 可 
行 解 ，LP 和 问题 的 任务 是 找到 一 个 能 最 小 化 目标 函数 的 可 行 向 量 。 对 LP 问题 [1, 4] 的 几何 解释 进 
一 步 分 析 揭 示 出 ， 最 优 解 向 量 常常 在 多 维 多 边 形 的 一 个 顶点 上 ， 它 有 n 一 m 个 元 素 等 于 零 ， 其 
余 变 量 取 非 零 正 值 。 

一 般 来 说 ，LP 问 题 的 解 有 四 种 可 能 的 情况 : 

1. 唯一 解 。 只 有 一 个 解 满足 所 有 的 约束 ， 且 目标 函数 在 可 行 域 里 达到 最 小 值 。 

2. 非 唯 一 解 。 存 在 几 个 可 行 解 使 得 目标 函数 达到 最 小 值 。 

3. 一 个 无 界 的 解 。 目 标 乓 数 在 可 行 域 无 界 ， 达 到 一 2。 

4. 无 可 行 解 。 式 (6-9) 和 式 (6-10) 中 约束 的 限制 性 太 强 ， 可 行 解 的 集合 为 空 集 。 
尽管 理论 上 存在 可 能 性 ， 但 第 3、4 种 情况 在 工程 与 科学 应 用 中 极 少 出 现 。 而 且 ， 这 两 种 情况 
很 容易 察觉 ， 在 对 LP 问 题 的 进一步 考虑 中 将 假设 它 有 至 少 一 个 可 行 解 。 

LP 问 题 的 对 偶 形 式 

由 式 (6-8) ~z} (6-10) 中 公式 表达 的 LP 问 题 通常 称 为 原始 LP 问 题 。 对 于 每 一 个 原始 LP 
问题 都 有 另 一 个 与 之 相关 的 称 为 对 锡 的 LP 问 题 。 对 偶 LP 回 题 有 如 下 形式 : 

最 大 化 

g(y) = bry (6-16) 
受 限 于 

A'y<e (6-17) 
其 中 4 E R”, b E R", e ERR (6-8) ~ 式 (6-10) 中 的 对 应 变量 有 相同 的 取 值 ， 
y ENR”"*! 是 一 个 对 偶 独 立 变量 。 注 意 在 对 偶 问 题 中 ， 独 立 变量 y 并 不 一 定 是 非 负 的 。 

原始 LP 问题 和 对 偶 LP 问 题 之 间 的 关系 可 以 用 如 下 定理 表述 。 为 了 使 内 容 简短 ， 定 理 的 证 
明 省 略 了 。 有 兴趣 的 读者 可 以 在 Gass[1] 中 找到 证 明 。 

定理 6.1 ”考虑 由 式 (6-8) ~R (6-10) 定义 的 LP 问 题 ， 和 式 (6-16)、 式 (6-17) FE 
的 对 偶 形 式 。 如 下 陈述 中 必 有 一 个 为 真 : 

(a) 原始 问题 和 对 偶 问 题 都 分 别 有 最 优 解 过 和 了] 了 ， 且 满足 等 式 : 

CT (6-18) 
换 名 话说 ， 在 最 优 解 这 一 点 上 ，LP 问 题 和 对 偶 LP 问 题 的 目标 函数 的 值 相等 。 

(b) 其 中 一 个 问题 是 无 界 的 ， 这 种 情况 下 另 一 个 问题 是 不 可 行 的 。 

(c) 两 个 问题 都 是 不 可 行 的 。 

此 外 ， 可 以 证 明 对 于 任何 一 对 原始 LP 问题 和 对 侦 LP 问 题 的 可 行 解 ， 对 偶 间 际 (duality gap) 
满足 

cx—b'y>0 (6-19) 
由 于 对 偶 间 阶 是 一 个 在 最 优 解 这 一 点 减少 到 零 的 非 负 量 ， 可 用 来 度量 解决 LP 最 优化 问题 的 
程度 。 


ie) 
~ 
CN 
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6.2.1 解决 LP 问 题 标 准 形式 的 神经 网 络 


为 了 解决 LP 问题 ， 神 经 网 络 实现 的 第 一 步 是 定义 一 个 在 无 约束 情况 下 可 以 被 最 优化 的 能 量 
函数 。 为 了 完成 这 一 步 ， 式 (6-9) 中 的 线性 约束 和 式 (6-10) 中 的 非 负 约束 以 某 种 方便 的 方 
式 附加 到 目标 函数 中 。 通 常 ， 这 些 约束 合并 成 惩罚 项 ， 即 当 违 反 了 这 些 约束 上 时， 会 增加 能 量 函 
数 的 值 。 两 个 可 以 用 拉 格 朗 日 (Lagrange) FH: (参见 A.6.2 节 ) 导出 的 能 量 函 数 定 义 为 [2] 


E(x)=L(x,A)=ex+ £ (Ax -by (Ax —b) + AT (Ax -b) (6-20) 
E,(x) = L,(x,A) =e" x + £ Ax -by (Ax- b)+ à” (Ax -b)-aATA (6-21) 


其 中 KK, a>0, AE R”, x30, A (6-21) 右边 最 后 一 项 称 为 正则 化 项 。 这 一 项 提高 了 在 病态 
约束 系统 下 拉 格 朗 日 乘 子 法 的 稳定 性 [2]。 


应 用 离散 时 间 最 速 下 降 法 ， 计 算式 (6-21) 中 能 量 函 数 对 x 的 梯度 ， 得 到 
V.E, = 2,7) 
x (6-22) 
= 2 CTX + FTA" Ax -x7 A'b -b Ax+b'b) +A" (Ax-b)- an] 
x 
和 
SEED) e+ KAT(Ax -b)+ ATA = c+ A" (Kr +A) (6-23) 
其 中 r E 和 RW"! 定义 为 r = r(x) = Ax 一 bp。 用 同样 的 方式 
2 _ Ax-b-aà=r-aÀ (6-24) 
aA 
基于 式 (6-23) 和 式 (6-24) 用 最 速 法 ,一 组 更 新 方程 式 可 以 用 如 下 公式 表达 
x(k+1)= su) Žao 如 果 x(k+1)>0 (6-25) 
0 m 如 果 x(k+1)<0 
和 
Mk + 1) =MBT+UIrD 一 ac] (6-26) 


其 中 r( 虽 = Ax(k)— b, K, a 之 0, p(k), v(k) > 0 是 学 习 率 参数 。 注 意 式 (6-25) 中 独立 变化 向 量 的 
更 新 方程 组 确保 所 有 分 量 都 保持 非 负 。 这 个 过 程 的 神经 网 络 体系 结构 实现 如 图 6-1 所 示 。 
例 6.1 欲 解 决 如 下 LP 问题 : 


最 大 化 
f(x) = cx =x, +x, (6-27) 
受 限 于 
一 2x +% S3 (6-28) 
X, + 3x, <16 (6-29) 
4x, + x,<20 . (6-30) 
X1,X,20 (6-31) 


由 问题 陈述 可 以 看 出 这 个 LP 问题 并 不 是 标准 形式 。 通 过 添加 另外 的 变量 x, x4, x;， 这 个 LP 问题 
可 以 转化 为 如 下 标准 形式 : 
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[i]: erk 
图 6-1 解决 标准 形式 的 LP 问 题 的 离散 时 间 神 经 网 络 ， 方 程 (6-25) 和 方程 (6-26) 的 实现 
最 大 化 


f(x) =x, + x, + Ox, + Ox, + Ox, (6-32) 
受 限 于 - 
—2x, tx +3 (6-33) 
X, + 3x, +x,=16 (6-34) 
4x, +x, +x; = 20 (6-35) 


为 了 解决 这 个 LP 问题 ， 模 拟 图 6-1 中 的 神经 
WA, vu = 0.01, 7 = 0.01, K =0,a=0 
作为 神经 网 络 的 参数 。 对 x* 和 4 都 假设 零 初 始 
条 件 。 图 6-2 分 别 显 示 了 五 个 独立 变量 的 轨 
迹 。 可 以 看 出 网 络 在 大 约 3000 步 迭代 内 收敛 。 


给 出 的 LP 的 解 是 =[4.0042 3.9953] , 4 
BER x =[4 4] 的 误差 在 学 习 率 参数 a 


的 精度 以 内 。 注 意 神 经 网 络 方法 也 提供 了 其 TO N 
余 恋 量 的 解 ，， Tb 


L-_.-1---| 


E 





6.2.2 解雇 LP 问题 非 标准 形式 的 神经 网 络 ptt : 
前 一 节 演 示 了 使 用 神经 网 络 解决 标准 形 of} o 0 23003000 
式 的 LP 问 题 。 从 例 6.1 中 可 以 看 出 这 种 方法 ER 


的 基本 折 囊 。 如 果 要 解决 的 LP 问 题 是 非 标准 6-2 例 6.1 中 LP 问 题 的 神经 网 络 解 的 独立 变量 轨迹 
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形式 的 ， 将 它 转化 成 标准 形式 会 增加 问题 的 维 数 ， 从 而 增加 问题 的 复杂 性 。 这 一 节 将 说 明 ， 
在 计算 上 ， 用 原始 形式 邯 虑 LP 问 题 比 用 等 价 的 标准 形式 更 有 利 。 

具有 不 等 式 约 束 的 LP 问 题 的 神经 网 络 体系 结构 

考虑 一 个 LP 问 题 ， 它 的 所 有 约束 都 用 不 等 式 的 形式 来 表达 : 


最 小 化 
f(x) = crx (6-36) 
受 限 于 
aX + ApyX_ ++ + Ai X,—b<0 对 于 i=1,2,…,m (6-37) 
和 . 
x, 20, 1.20, ++, x, 20 (6-38) 
通常 把 式 (6-37) 的 约束 简写 成 如 下 标记 
P(X) = 4)X, + QpX, + + aX b, 对 于 i=1,2,… (6-39) 


Ba RE ALP RAO AI, ARTE 人 

能 量 函 数 。 在 这 种 情况 下 ， 需 要 构造 一 个 能 够 惩罚 违反 每 个 不 等 式 约束 条 件 的 能 量 函 数 。 

计 出 这 个 能 量 函 数 后 ， TERE REA ABAIR RTRA EMCEE TLE. 
考虑 一 个 如 下 定义 的 能 量 函 数 


E(x,K) = orky dira) (6-40) 
其 中 
= 如 果 r(x) 拟 0 
Dr,(x)] >0 ”如果 r(x)>0 (6-41) 
且 
x,20, x, 20, ---,x,20 (6-42) 


这 个 函数 由 两 项 组 成 。 式 (6-40) 中 右边 第 一 项 是 待 最 小 化 的 LP 问题 的 目标 函数 。 第 二 项 是 
对 违反 约束 的 惩罚 。 函 数 纹 可 以 选用 任何 具有 式 (6-41) 所 述 特性 的 分 段 可 微 函数 。 正 参 
数 K 控 制式 (6-40) ~K (6-42) 中 无 约束 最 优化 问题 接近 式 (6-36) ~ (6-38) 中 原始 LP 
问题 。 很 容易 看 出 当天 趋 于 正 无 穷 时 ， 这 两 个 问题 成 为 等 价 的 。 因 此 ， 参 数 K 通 常 选取 一 个 足 
够 大 的 正 数 。 应 用 最 速 下 降 技 术 ， 有 下 式 : 





x(k +1) = x(k) - pee (6-43) 
对 式 (6-40) 中 能 量 函 数 求 偏 导 数 得 到 
a x x+ Ky atria} -e+ Ky Vinee (6-44) 
其 中 wv) = a =@'(v), WAR (6-39) 和 式 (6-44), A: 
ay 
zw. e+KY irc) |” (6-45) 


Gin 
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考虑 式 (6-38) 中 的 非 负 约束 ， 并 把 式 (6-45) RAK (6-43)， 获 得 一 组 更 新 方程 式 


x(k+l)= plot room 如 果 x(k + D>0 
0 


如 果 x(k+1)<0 
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(6-46) 


基于 式 (6-46), HER- AA HAM ARE. AT, RO) HEA 


对 于 vw>0 


ow | 
w= f 对 于 v<0 





图 6-3 求解 非 标准 形式 LP 问题 的 离散 时 间 神经 网 络 ， 方 程 (6-46) 的 实现 
另 一 个 可 用 来 解决 带 有 不 等 式 约束 的 LP 问题 的 能 量 函 数 可 定义 为 [2] 


E(x) =c"x+ Ky max {0,7,(x)} 


其 中 开 > 0。 式 (6-48) 对 x 的 梯度 给 定 如 下 : 


dE(x) Z 
a(x) 


因此 ， 采 用 式 (6-43)， 离 散 时 间 学 习 为 





m 
r 
c+ Ky Sa aq] 
f 


x(k +1)= x00) (6 “KY Say] 


其 中 


s 1 如 果 r(x) > 0 
=h 如 果 rao 


当然 必须 满足 式 (6-42) 中 的 约束 ， 并 且 在 每 个 离散 时 间 步 k 有 
x(k) = max {x;(k), 0} 


(6-47) 


(6-48) 


(6-49) 


(6-50) 


(6-51) 


(6-52) 





184 =D HATHA A 








实现 式 (6-50) 和 式 (6-51) 的 神经 网 络 体系 结构 如 图 6-4 所 示 。 注 意 它 与 图 6-3 中 的 网 络 
有 很 相似 的 结构 。 

例 6.2 ”图 6-3 和 图 6-4 中 的 神经 网 络 体系 结构 用 来 解决 例 6.1 的 LP 问 题 。 图 6-3 中 网 络 的 参 
数 选用 ko = 0.005, K = 5。 第 二 个 网 络 的 参数 也 是 1 = 0.005, K = 5。 独 立 变 量 的 轨迹 如 图 6-5 所 
示 。 两 种 情况 的 初始 条 件 设 为 ze = [1 2] 。 在 训练 过 程 中 ， 学 习 率 按照 如 下 进度 减少 





图 6-4 求解 非 标准 形式 LP 问 题 的 离散 时 间 神 经 网 络 ， 方 程 (6-50) 和 方程 (6-51) 的 实现 
45 
4 一 一 一 一 一 一 
3.5F--- 

i 

ee 3 -- 二 -二 -人 

+ 

x 


4o---L---- 








-~ -~ 下 -一 -~ 上 -一 一 一 


aoe dee hee 








tAab—-- 


l 0 400 


d 
Ab--- 
© 


上 1 | 
i ot | 
0 50 100 150 200 250 300 3 
weft 





a) 
图 6-5 例 6.1 中 LP 问 题 的 神经 网 络 解 的 独立 变量 轨迹 : a) 使 用 图 6-3 所 示 的 网 络 结构 ，b) 使 
用 图 6-4 所 示 的 网 络 结构 
= Ho 一 
P= Toga +k) (6-53) 


注意 两 个 网 络 都 比例 6.1 中 使 用 的 网 络 收敛 快 得 多 ,在 例 6.1 中 把 LP 问 题 转化 成 了 标准 形式 。 
从 第 一 个 网 络 获得 的 解 是 XT = [4.0127 4.0218] ， 第 二 个 网 络 的 解 是 六 = [4.0060 3.9976] 。 两 
个 解 的 精度 都 不 比 学 习 率 参数 的 精度 差 。 
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具有 混合 约束 的 LP 问 题 的 神经 网 络 

前 几 节 专门 介绍 使 用 神经 网 络 体系 结构 解决 两 种 重要 情形 下 的 LP 问题 ， 全 部 约束 都 是 等 式 
约束 《LP 问题 的 标准 形式 )， 和 全 部 约束 都 是 不 等 式 约束 。 一 般 来 说 ，LP 问 题 可 以 用 两 种 约束 
来 表达 。 通 过 增加 剩余 或 松弛 变量 ， 任 何 LP 问 题 都 可 以 转化 成 标准 形式 。 然 而 ， 不 这 么 做 往往 
更 有 益 。 换 句 话说 ， 在 线性 规划 的 神经 网 络 方法 中 ， 处 理 问 题 的 原始 形式 可 以 获得 明显 优势 。 

考虑 如 下 具有 混合 约束 的 LP 问题 : 


最 小 化 

f(x)=e"x= dor (6-54) 

受 限 于 
aX +Qot 二 十 Qu 三 (6-55) 
Ay Xi + 4, 9X) + +.,,.X, = b, (6-56) 
apri, Xi Ft Aga pat H Aya Xn S bpa (6-57) 
: (6-58) 
AniX, + dm2X2 tot adnan S Bbm . (6-59) 

和 

Xis Xo, 0 (6-60) 


这 个 m 约 束 集 可 以 分 成 两 个 子 集 。 第 一 个 子 集 由 p 个 等 式 约束 组 成 ， 第 二 个 子 集 有 m 一 p 
个 不 等 式 约 束 。 由 于 这 两 个 子 集 不 相交 ， 可 以 用 式 (6-20)、 式 (6-21)、 式 (6-40) 和 式 
(6-48) 的 能 量 函 数 的 复合 作为 能 量 函 数 。 依 赖 于 复合 能 量 函 数 的 形成 ， 可 以 推导 出 儿 种 不 
同 的 学 习 算法 和 相应 的 神经 网 络 体系 结构 。 例 如 ， 用 式 (6-21) 和 式 (6-40)， 可 以 如 下 表达 
能 量 函 数 








E(x) =e "xr ia, x-b,) (A,x -b,)+ A (A,x -b,)- oA pS ara (6-61) 
i=p+l 
其 中 

K,, Ky, a20 (6-62) 

ay Ay a 
Apa [ee e e e b, =[b,,b,,---.b, 7° (6-63) 

ap Co Fon 
= [A Ay» vey AV" (6-64) 


函数 (vo) 是 满足 式 (6-41) 的 分 段 可 微 函 数 。 
式 (6-61) 中 的 能 量 函 数 由 三 种 不 同类 型 的 项 组 成 。 第 一 种 是 

T,=ec'x ` (6-65) 
这 是 -一 个 待 最 小 化 的 LP 目标 函数 。 第 二 种 


K 
T, = z4x -b,) (4 ,x-b,)+ A5 (A,x -b,)- aA À, (6-66) 


对 每 一 个 违反 等 式 约束 的 惩罚 。 最 后 ， 第 三 种 


N 
A 
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K m 
T, = PPA (x)] (6-67) 
对 违反 不 等 式 约束 的 惩罚 。 应 用 最 速 下 降 法 ， 更 新 方程 式 可 以 写作 
255 A, (k + 1) =A, (k) + vIr, (k) — aà, (k)] (6-68) 
和 
ai 
x(k +1) = x(k) - w(k)de + Al LK,r,(k) - A, (K+ K, >) Pir] “2 (6-69) 
7” ai, 
其 中 
r,=A,x—b, (6-70) 
yw) = $2) (6-71) 
dv 
Hulk), vlk) > 0 是 学 习 率 参数 。 
这 个 过 程 的 神经 网 络 体系 结构 实现 如 图 6-6 所 示 。 注 意 ， 其 中 强制 约束 独立 变量 为 正 。 
4 
| 
| 
| 
A 
ai 
256 图 6-6 解决 非 标准 LP 问 题 的 离散 时 间 神 经 网 络 ， 方 程 (6-68) 和 方程 (6-69) 的 实现 


6.3 解决 二 次 规划 问题 的 神经 网 络 


二 次 规划 (quadratic programming, QP) 问题 是 非 线性 最 优化 问题 的 特殊 情况 ， 是 在 线性 
约束 条 件 下 最 优化 一 个 二 次 目标 函数 。 然 而 ， 由 于 它 在 日 常 实践 中 的 重要 性 和 频繁 出 现 ， 被 
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当 作 一 类 单独 的 问题 。 本 节 考 虑 解决 根据 线性 约束 的 形式 定义 的 三 种 类 型 的 QP 问题 的 神经 网 
络 方法 。 在 考虑 QP 问题 的 各 种 形式 之 前 ， 先 看 看 一 般 的 二 次 型 。 - 

二 次 型 

二 次 型 是 所 有 QP 问题 中 都 要 最 优化 的 目标 函数 的 一 部 分 。 本 节 定 义 二 次 型 ， 并 简要 介绍 
它 与 QP 问题 有 关 的 性 质 。 

考虑 向 量 x eR, EMP RRA 





f(x) = > > GijXiX; (6-72) 
称 作 向 量 x 的 二 次 型 。 系 数 qgi 常 常 排 列 成 矩阵 ， 式 (6-72) 可 以 用 更 紧凑 的 形式 重 写 为 
f(x) = x'Qx (6-73) 
其 中 @ € RW'""。 对 于 每 一 个 x 和 OQ， 乘积 x Qx 是 一 个 标量 ， 有 
x'Qx = (x'Qx)' = x'O™x (6-74) 
因此 ， 
x'Qx = SOx +x Q x) =x" Q +g x=x Qx (6-75) 


FAL, EBE OQ 是 一 个 对 称 和 矩阵 ， 其 元 素 为 
Gy = a, +q;) (6-76) 
其 中 qj 和 gi 是 8 的 元 素 。 由 式 (6-75) 和 式 (6-76)， 很 明显 ， 对 于 每 一 个 矩阵 Q@， 可 以 用 
对 称 系数 矩阵 O 来 构造 一 个 等 价 的 二 次 型 。 由 于 这 个 原因 ， 为 不 失 一 般 性 ， 可 以 假设 Q 是 一 
个 实 对 称 和 矩阵 。 
二 次 型 称 为 正定 的 (参考 A.2.6 节 )， 如 果 对 于 每 一 个 非 零 的 x E RW"*'， 


x'Qx>0 (6-77) 
成 立 。 二 次 型 称 为 半 正 定 的 ， 如 果 对 于 所 有 非 零 x € R"™', 
x'Qx>0 (6-78) 


成 立 ， 并 且 至 少 存在 一 个 向 量 x 关 0 使 得 x?Qx = 0。 通 过 把 式 (6-77) 和 式 (6-78) 中 不 等 
号 适当 反 向 ， 还 可 以 定义 负 定 和 半 负 定形 式 。 

与 非 线 性 规划 相关 的 一 个 基本 数学 概念 是 凸 函 数 (参见 A.3.1 节 定义 A.11)。 定 义 在 **! 
中 一 个 凸 集 D 上 的 函数 Ax)， 如 果 对 于 D 中 任意 两 个 点 x,、x2 与 任意 0<A<1， 


flax, + -Ax < MX) + (1 — Nfx)) (6-79) 


WU) RA HR. WR 一 六 z) 是 凸 国 数 ， 则 所 z 称 为 止 图 数 。 当 x CRM, NBR BA 
如 图 6-7 所 示 。 如 果 国 数 是 凸 的 ， 它 在 区 间 (x， x;) 上 任意 一 点 的 函数 值 小 于 连接 点 fx1) 和 f(x) 
的 直线 上 的 相应 值 。 下 面 的 定理 介绍 了 山 销 数 的 一 个 重要 性 质 。 为 了 简洁 ， 定 理 的 证 明 省 略 ， 
证 明 可 以 在 Wilde and Beightler[3] 中 找到 。 

定理 6.2 ”如果 f(x) 在 凸 集 D 中 是 是 的 ， 那 么 fx) 最 多 只 有 一 个 局 部 最 小 点 。 如 果 存 在 这 样 
一 个 最 小 点 ， 它 就 是 全 局 最 小 点 并 且 在 凸 集 已 上 获得 。 

定理 6.2 在 最 优化 理论 中 有 深远 的 重要 性 。 它 解决 了 许多 基于 某 种 梯度 技术 的 迭代 算法 中 
常见 的 一 个 问题 一 一 逃离 误差 (能 量 ) 曲面 的 局 部 最 小 点 。 本 质 上 ， 这 个 定理 说 明 ， 如 果 能 
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量 函 数 是 凸 的 ， 则 局 部 最 小 点 问题 就 不 存在 ， 并 且 基 于 梯度 的 最 小 化 过 程 会 确保 终止 于 全 局 
最 小 点 。 

A (6-73) 中 的 二 次 型 是 非 线性 规划 中 使 用 的 许多 能 量 函 数 的 一 个 常见 部 分 。 除 了 许多 
非 线性 规划 问题 本 来 就 包含 二 次 型 的 事实 外 ， 下 面 的 定理 揭示 了 这 种 形式 常见 的 原因 。 


Sœ 


Af) + I-A) f 2) 





x Ax\+ (I-A) x. n 
图 6-7 凸 函 数 的 例子 
定理 6.3 让 x E€ N”, fx) =x Ort EXE LEDCR ' LAH-AIKA, WREEOR 
半 定 的 ， 则 二 次 型 义 z) 在 集合 刀 上 是 凸 的 。 
证 明 : AFA (6-79) 的 凸 函 数 定义 ， 希 望 证 明 对 于 0 入 人 迄 1 和 所 有 xi, ED, A 
flax, + (1 — A)x2] — Af(x,) — 1 — A(x.) <0 (6-80) 
HOE MAREE, A x Ox, = x1Qx, 。 通 过 把 表达 式 写 成 二 次 型 的 形式 ,， A (6-80) 的 
左边 可 以 重 写 成 
[Ax, + (1— Ax,T Q[Ax, +(1-A)x,]- Ax Qx, -(1- AxiOQx, 
= Nx Qx, +(1- A) x3 Ox, +2A(1- A)x! Qx, - Ax] Ox, - (1 - A)x7 Ox, 
= (A - A)x] Ox, +(1- AI- Axi Ox, - x} Ox, ]+ 2A - Ax} Ox, 


= A(A- Nx] Qx, + ACA - x7 Ox, - 2A(A Dx’ Ox, (6-81) 
= A(A -1)[x/ Qx, + x3 Ox, -2x7 Qx] 
= AÀ -= Dx, - x) Q(x, - x,)] 
HTOe- hee, A 
(=x) Q — x2) >0 (6-82) 
由 于 0 和 < 1， 则 
MA—1)<0 (6-83) 


所 以 ， 式 (6-80) 的 不 等 式 成 立 ， 证 毕 。 

定理 6.3 说 明 半 定 二 次 型 是 一 个 凸 函 数 。 因 此 ， 根 据 定理 6.2， 可 以 用 基于 梯度 的 迭代 技术 
轻易 找到 唯一 极 小 点 。 然 而 ， 如 果 惩 阵 & 是 不 定 的 ， 有 可 能 这 个 二 次 型 会 有 多 个 局 部 极 小 点 。 
从 实际 情况 来 看 ， 这 个 限制 很 少 碰 到 ， 因 为 大 多 数 二 次 规划 问题 可 以 用 半 正 定 的 @ 表 达 为 二 次 
型 的 形式 。 鉴 于 此 ， 在 后 面 的 节 中 ,假设 Q 是 对 称 半 正 定 矩 阵 。 如 果 不 符合 这 一 点 ， 下 面 描述 
的 一 些 神经 网 络 算法 将 不 能 收敛 到 全 局 最 小 点 。 
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用 于 标准 形式 QP 问 题 的 神经 网 络 
与 LP 问 题 的 情况 相似 ，QP 问 题 也 可 以 表达 为 标准 形式 。QP 问 题 的 标准 形式 如 下 : 
最 小 化 


f(x)=e x+ Fx"Qx (6-84) 
受 限于 
Ax=b (6-85) 
和 
Xp Xy ,XO (6-86) 


其 中 x e R, cE R, QER”, ACR ™ FER men, FARZOLNREEE 
HE, l 

为 了 使 用 神经 网 络 方法 ， 需 要 定义 一 个 简便 的 能 量 函 数 。 使 用 增 广 的 拉 格 朗 日 乘 子 法 
(参见 A.6.2 节 )， 可 以 如 [2] 定 义 一 个 能 量 函 数 


E(x,A)=c x+ Tx"Qx +A' (Ax -b)+ £ ax -by (Ax-b) (6-87) 


其 中 入 = [à Aas oan) Anl E Ren, k 之 0 是 一 个 惩罚 参数 。 
应 用 梯度 法 ， 可 以 得 到 网 络 更 新 方程 为 


x(k + 1) = x(k) — uV E(x, A) (6-88) 
和 
Mk + 1) = MK) + nV, E(x, A) (6-89) 
其 中 心 n> 0 是 学 习 率 参数 。 在 确定 了 式 (6-88) 和 式 (6-89) 的 梯度 之 后 ， 学 习 规则 是 
x(k + 1) = x(k) — ple + Ox(k) + ATMA) + KA[Ax(k) — b]} (6-90) 
和 
Mk + 1) = Mk) + n(Ax— b) (6-91) 


这 个 过 程 的 神经 网 络 体系 结构 的 实现 如 图 6-8 所 示 。 
作为 最 后 一 个 注释 ， 考 虑 与 式 (6-87) 定义 的 能 量 函 数 相关 的 黑 塞 矩 阵 (参见 A.3.5 节 ) 


H PERM 94 KATA (6-92) 
Ox” 

由 式 (6-92) 看 出 ， 这 个 能 量 函数 的 黑 塞 矩 阵 是 半 正 定 的 ， 如 果 Q 是 半 正 定 的 ， 则 对 K = 0 
也 成 立 。 由 于 这 正 是 大 多 数 QP 问 题 的 情形 ， 图 6-8 中 的 网 络 确保 收敛 到 唯一 的 全 局 最 小 点 。 然 
而 ， 即 使 在 CQ 不 是 半 正 定 的 情况 下 ， 如 果 参 数 天 设 成 一 个 足够 大 的 正 值 ， 黑 塞 矩 阵 就 可 以 强制 
成 为 正定 的 。 由 于 这 个 原因 ， 当 &@ 的 一 些 特 征 值 为 相对 较 小 的 正 数 或 @ 不 是 正定 的 时 候 ， 惩 罚 
项 (K/2)(4x 一 5b) "(4x 一 b) 趋 向 于 提高 网 络 的 收敛 性 。 

例 6.3 考虑 一 个 QP 问 题 如 下 : 

最 大 化 


f(x) =x, +x, x? — 3x} (6-93) 
受 限 于 


N 
nN 
O 
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图 6-8 解决 标准 QP 问题 的 离散 时 间 神经 网 络 ， 方 程 (6-88) 和 方程 (6-89) 的 实现 


—2x,+%,<3 (6-94) 
x, + 3x,<16 (6-95) 
Ax, +x<20 (6-96) 

Xp X20 (6-97) 


由 于 问题 不 是 标准 形式 的 ， 可 以 通过 加 一 些 额外 变量 进行 变换 。 问 题 的 等 价 的 标准 形式 如 下 : 
最 小 化 


HGD -erxz+ 了 mrOr- -aa -x +x) + 3x3 (6-98) 
受 限 于 
—2x, +x) +x, =3 (6-99) 
X, + 3x, +x,= 16 (6-100) 
4x, + x, +x, = 20 (6-101) 
Xis Xn 11, XO (6-102) 


图 6-8 所 示 的 神经 网 络 用 来 解决 这 个 QP 问题 。 选 择 学 习 率 4 = 0.01 和 ?7 = 0.01。 图 6-9a、b 分 别 
显示 两 个 不 同 参 数 K 值 下 的 独立 变量 x (i = 1, 2, …, 5) 的 轨迹 。 可 以 看 出 K 取 非 零 值 显著 地 提高 
了 网 络 的 收敛 性 。QP 问 题 的 一 个 精确 解 是 x, = 0.5 和 x = 0.1667。 在 两 种 情况 下 ， 网 络 都 收敛 
到 了 实际 情况 下 学 习 率 精度 中 的 值 。 

具有 不 等 式 约 束 的 QP 问题 的 神经 网 络 

在 前 一 节 中 ， 考 察 了 解决 标准 形式 的 QP 问题 的 神经 网 络 方法 。 如 同 例 6.3 中 演示 的 ， 即 使 


问题 不 是 标准 形式 的 ， 也 总 是 可 以 通过 增加 新 的 独立 变量 转换 成 标准 形式 。 作 为 转换 而 付出 
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的 代价 是 问题 维 数 的 增加 和 相应 神经 网 络 大 小 的 增加 。 本 节 专 注 于 解决 具有 不 等 式 约束 的 QP 
问题 的 神经 网 络 方法 。 


独立 变量 


独立 变量 





"0 0 1 2000 2500 3000 
选 代 
b) 
图 6-9 例 6.3 中 QP 问题 的 独立 变量 的 轨迹 。a) K =0, 网 络 收 敛 到 x, = 0.5176 和 x, = 0.1642, b) 


开 = 1， 网 络 收敛 到 x = 0.5069 和 x, = 0.1673 


具有 不 等 式 约 束 的 QP 问题 形式 如 下 : 
最 小 化 
f(r) = eTx+ 37x"Qx (6-103) 
受 限 于 
Ax<b (6-104) 
和 
x20 (6-105) 


HxcERn' A E R”, DER™', QER EREE CBE. 
为 了 解决 式 (6-103) ~HK (6-105) 定义 的 QP 问题 ， 可 以 扩充 具有 不 等 式 约 束 的 LP 问题 
中 使 用 的 方法 。 可 以 定义 
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n 


n(x) = Ñ a,x, -b (6-106) 


j=l 


并 且 用 公式 表达 两 个 不 同形 式 的 能 量 函 数 。 第 一 种 形式 可 以 写成 
E,(x,K)=e'x+ 了 rrOx 十 Ky P[r,(x)] (6-107) 


Kp Ov) AERIS POPE RAD E GR: 

0 如 果 r(x)<0 

0 如 果 r(x)>0 
A (6-107) 右边 的 求 和 项 是 惩罚 项 ， 只 要 有 一 个 不 等 式 约束 被 违反 ， 惩 罚 项 就 会 增加 能 

量 函 数 的 值 。QP 问 题 的 能 量 函 数 的 第 二 种 形式 可 以 写成 : 


Hro (6-108) 


E,K) = errt 3 Or + KY martr), 0) (6-109) 


可 以 看 出 ， 这 两 种 形式 都 是 通过 把 约 东 附加 到 QP 问题 的 目标 函数 中 来 产生 能 量 函数 。 参 
数 K > 0 通常 称 为 惩罚 参数 ， 在 两 种 情况 下 都 需要 选 一 个 相当 大 的 惩罚 参数 来 确保 最 小 化 过 程 
满足 所 有 约束 。 通 过 采用 最 速 下 降 方 法 ， 可 以 计算 能 量 函 数 的 梯度 ， 并 且 在 离散 时 间 步 内 确 
立 学 习 。 

式 (6-107) 对 x 的 梯度 给 定 如 下 

ai 
ER we Ore KY wro? (6-110) 


a. 


in 


注意 式 (6-105) 中 的 非 负 约 东 ， 现 在 可 以 写 出 更 新 方程 如 下 : 
x(k+1)= A DA wee, | 如 果 x(k+1)>0 (6-111) 
0 7 T 如 果 x(k+1)<0 


其 中 | = 1,2,…,n, Wv) = d@(v)/du, 1 是 学 习 率 参数 。 
式 (6-109) 的 能 量 函 数 的 梯度 如 下 


Gil 


EO erori KY S a (6-112) 
ain 
其 中 
0 如 果 r(x) <0 
=f, 如 果 ra) >0 (6-113) 
再 次 注意 式 (6-105) 中 的 非 负 约束 ， 可 以 看 出 ， 更 新 方程 变 成 


K 
on HOR afk + 1)>0 (6-114) 


0 如 果 x(k +1)<0 
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基于 两 个 不 同 能 量 函 数 的 神经 网 络 体系 结构 如 图 6-10 和 图 6-11。 可 以 看 出 ， 这 两 个 网 络 实 
际 上 有 相同 的 结构 ， 仅 有 的 显著 区 别 是 第 一 层 中 对 约束 的 非 线性 处 理 。 把 这 两 个 神经 网 络 体 
系 结构 与 图 6-8 中 的 网 络 相 比较 显示 出 ， 用 神经 网 络 解 决 有 不 等 式 约束 的 QP 问题 的 最 大 好 处 来 
自 它 不 需要 添加 松弛 变量 或 剩余 变量 就 可 以 解决 原始 问题 的 能 力 。 





图 6-10 解决 有 不 等 式 约束 的 QP 问 题 的 离散 时 间 神 经 网 络 ， 方 程 (6-114) 的 实现 


具有 混合 约束 的 QP 问 题 的 神经 网 络 

前 面 几 节 介绍 了 几 种 可 以 用 来 解决 标准 形式 或 所 有 约束 都 由 不 等 式 形式 给 出 的 QP 问 题 的 神 
经 网 络 体系 结构 。 一 般 来 说 ，QP 问 题 可 以 用 等 式 约束 和 不 等 式 约束 来 表达 。 如 同 已 经 讨论 的 ， 
解决 具有 混合 约束 的 QP 问题 的 一 种 方法 是 把 其 转换 成 标准 形式 的 等 价 问题 。 然 而 ， 这 种 方法 增 
加 了 问题 的 维 数 ， 因 此 ， 在 很 多 情况 下 ， 这 么 做 在 计算 上 并 不 高 效 。 另 一 种 选择 是 直接 法 ， 构 
造 一 个 增 广 的 能 量 函 数 ， 对 每 个 约束 违反 引入 一 个 惩罚 ， 并 且 使 用 某 种 梯度 技术 来 进行 最 优化 。 

有 具有 混合 约束 的 QP 问题 有 如 下 的 一 般 形 式 : 


最 小 化 
fxyeclx+5x7Qx (6-115) 
受 限 于 
Qi + AX 十 +a, = Dbi (6-116) 
api Xi ap 十 +p Xp = b, (6-117) 


Ap+1,1X1 + ap+1,2%2 十 FO yet Xn S Bpi (6-118) 
: (6-119) 





194 P= HBHHGHAA 


A mX + Gn2X2 + FF Xn < bn 





(6-120) 


(6-121) 


图 6-11 解决 具有 不 等 式 约束 的 QP 问题 的 离散 时 间 神经 网 络 ， 方 程 (6-102) 和 方程 (6-103) 


的 实现 
其 中 ec ER"! QE R “是 对 称 半 正定 和 矩阵 。 


概念 上 ， 式 (6-115) ~ 式 (6-121) 中 指定 的 QP 问题 可 以 看 作 式 (6-84) 一 式 〈6-86) 
和 式 (6-103) 一 式 (6-105) 中 的 QP 问题 的 推广 ， 并 且 能 量 销 数 可 以 写成 式 (6-87)、 式 (6-107) 


和 式 (6-109) 中 定义 的 能 量 函 数 的 复合 。 比 如 ， 如 果 定 义 








和 
A, = [A A, se A 
能 量 函数 可 以 用 式 (6-87) 和 式 (6-107) 表达 成 
E(x Ns Ki, Ka) = "x+ x" Ox + A (A,x -b,) 


+ E (a,x -b,) (A,x -b,)+ K, > Bir) 


i=p+i 


(6-122) 


(6-123) 


(6-124) 


(6-125) 
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使 用 最 速 下 降 梯度 法 ， 更 新 方程 可 以 写成 


x(k D = x(k) -pa (6-126) 
和 
dE(x,A,,K,,K. 
A,(k +1) = A, (K+ eee (6-127) 
偏 导数 可 计算 为 
a, 
dE(x,A,,K,,K. z i 
AED or Qr +AU), +K,Aj(A,x-b,) +K, DM K (6-128) 
ain 
和 
BE A Ko K) 
a =A,x-b, (6-129) 
考虑 到 式 (6-110) 中 的 非 负 要 求 ， 标 量 形式 的 更 新 方程 组 可 以 写成 
y-as 5 qixXi(k) 
+ >» aj[Kin(x) + A,(k)] 
x(k+1)= 人 (6-130) 
+K, > wo 如 果 x,(k+1)>0 
0 如 果 x;(k+1) <0 
和 
aCe = AH Xaxi- (6-131) 


6.4 解决 非 线 性 连续 约束 最 优化 问题 的 神经 网 络 


在 本 章 前 面 几 节 中 ， 介 绍 了 两 种 重要 形式 的 约束 最 优化 问题 一 LP 问题 和 QP 和 问题。 现在 把 
注意 力 回 到 式 (6-1) AK (6-2) 中 描述 的 约束 最 优化 问题 的 一 般 情形 中 去 。 通 常 ， 为 了 强调 县 
标 函 数 和 约束 都 可 能 是 非 线性 的 ， 这 种 类 型 的 问题 称 为 非 线性 规划 (nonlinear programming, NP) , 

NP 问题 有 大 量 的 实际 应 用 ， 因 此 ， 在 理论 上 和 实践 上 得 到 了 广泛 的 研究 。 由 于 这 个 原因 ， 
容易 找到 许多 极 好 的 参考 文献 ， 而 且 大 量 的 非 线 性 规划 算法 已 经 或 正在 开发 。 这 一 节 的 主要 目标 
是 举 几 个 例子 来 说 明神 经 网 络 是 如 何 用 作 一 个 计算 上 高 效 、 且 相对 简单 的 工具 来 实现 一 些 著 名 的 
非 线 性 规划 技术 ， 包 括 惩罚 函数 法 ， 障 得 函数 法 ， 普 通 拉 格 朗 日 乘 子 法 ， 和 增 广 拉 格 朗 日 乘 子 法 。 

在 专注 于 NP 算法 的 神经 实现 之 前 ， 回 顾 一 下 这 个 问题 的 定义 。 基 于 约束 的 形式 ， 可 以 定 
义 三 种 不 同形 式 的 NP 最 小 化 问题 [2]: 

NP1 (具有 等 式 约束 的 NP 问题 ) 

最 小 化 


is) 
心 





N 
全 
oo 


796 E RA HAHA 








Ar) = fX X25 s Xa) (6-132) 
受 限于 
h(x)=0 其 中 i=1,2,…,m (6-133) 
NP2 (具有 不 等 式 约束 的 NP 问题 ) 
最 小 化 
SUX) = fx1, Xn s Xn) (6-134) 
受 限 于 
g(x)<O 其 中 i= 1,2,…,m (6-135) 
NP3 (具有 混合 约束 的 NP 问题 ) 
最 小 化 
Sx) = F(X, X25 s Xn) (6-136) 
受 限 于 
h(x)=0 其 中 i=1,2,…,p (6-137) 
和 
gi((x)<0 ”其 中 i=p+1,p+2,…,m (6-138) 


其 中 x E RW"*' 是 独立 变量 向 量 ，f(x):H"*!-> 针 是 目标 函数 ， 函 数 有 h(x), gR RRR 
东 。 为 了 简化 算法 的 推导 ， 假 设 目标 函数 和 约束 都 是 独立 变量 的 光滑 可 微 函 数 。 

使 用 额外 变量 ， 问 题 NP2 和 NP3 中 的 不 等 式 约束 可 以 转化 成 等 式 约 束 。 相 似 地 ， 每 个 等 式 
约束 可 以 根据 

A(x) =O0<h(x)<0 有 h(x)>0 (6-139) 

转化 成 一 对 不 等 式 约束 。 因 此 ， 每 个 NP 上 n| 题 可 以 转换 成 NP1 或 NP2 形 式 。 然 而 ， 从 计算 
的 角度 更 倾向 于 用 NP 问题 的 原始 形式 考虑 问题 。 最 后 ， 注 意 问 题 的 NP1 或 NP2 形 式 可 以 看 作 
是 更 一 般 的 NP3 形 式 的 特殊 情况 。 


6.4.1 罚 函 数 NP 方 法 的 神经 网 络 


. 使 用 罚 函 数 的 方法 尝试 把 NP 问题 转换 成 一 个 等 价 的 无 约束 最 优化 问题 ， 或 转换 成 一 系列 
的 约束 最 优化 问题 。 这 个 转换 是 通过 修正 目标 函数 ， 使 得 目标 函数 包含 一 些 项 来 惩罚 每 个 对 
约束 的 违反 实现 的 。 一 般 来 说 ,修正 的 目标 函数 有 如 下 的 形式 .: 


m 


F(X) = F(x) + SK mo + > KP Eiga) (6-140) 


函数 DO gf2 称 作 罚 函 数 ， 当 独立 变量 向 量 违反 某 个 约束 时 ， 或 者 说 当 它 在 可 行 域外 时 ， 罚 
函数 会 增加 修正 的 目标 函数 h(x) 的 值 。 通 常 至 少 选择 满足 下 列 条 件 的 一 阶 可 微 函数 作为 罚 函 数 : 
1. 对 于 等 式 约束 
>0 对 于 A(x) #0 
20 对 于 h(x)=0 (6-141) 
2. 对 于 不 等 式 约束 


>0 对 于 i >0 
W 对 于 geo (6-142) 





FOF MAZAR REALE 197 








下 面 给 出 了 一 些 通常 用 作 罚 函数 的 函数 : 对 于 等 式 约 束 的 情形 


1. B’W)= lp 


5 (6-143) 
2. (v= ZIP p>0 (6-144) 
3. &(v) =coshu-1 (6-145) 
4. a) = mfe +e] (6-146) 
对 于 不 等 式 约束 的 情形 

1. &(v) = max{0,v} (6-147) 
2. P” (v) = (max{0,v})’ (6-148) 


比如 ，NP3 问 题 的 典型 修正 目标 函数 可 以 写成 
Pp {DD) m 
fa) = fla) + YAU (a) + Ñ KP maxto,s (6-149) 
i= Pi i=p+] 
其 中 pi, ps>0。 参 数 KO, KO >0 通 常 称 为 届 参 数 或 缠 来 数 ， 式 (6-149) 中 假设 每 个 罚 函 
数 都 有 一 个 相关 的 独立 的 罚 参数 。 在 实践 中 却 很 少 这 样 ， 通 常 整个 惩罚 项 只 有 一 个 参数 乘 
数 ， 即 ， 


f(x) = f(x)+K paola + Ý maxt0, ¢(2) 


i=p+t (6-150) 





= f(x) + KP(x) 


其 中 P(x) 表 示 惩 罚 项 。 

在 罚 函数 的 实际 应 用 中 ， 有 两 个 需要 注意 的 基本 问题 。 首 先 ， 必 须 意 识 到 式 (6-150) X 
仅 表 示 一 个 从 式 (6-136) 一 式 (6-138) 的 原始 问题 近似 。 这 个 近似 的 接近 程度 如 何 ? 第 二 个 
问题 是 设计 一 个 能 够 以 适时 方式 成 功 解决 无 约束 问题 且 在 计算 上 高 效 的 神经 网 络 算法 。 

由 式 (6-150) 中 增 广 目 标 函 数 的 形式 ， 很 明显 ， 解 都 在 一 个 罚 函 数 P(x) 的 值 很 小 的 区 域 
内 。 事 实 上 ， 如 果 K 向 无 穷 大 增长 ， 无 约束 问题 的 解 将 限制 到 原始 NP 问题 的 可 行 域 中 。 记 住 ， 
如 果 一 个 点 在 可 行 域 中 ， 则 它 满足 所 有 的 约束 且 罚 函数 等 于 零 。 在 极限 的 情况 下 ， 当 K 一 %， 
这 两 个 问题 变 成 等 价 的。 简单 地 说 ， 这 两 个 问题 的 等 效 性 可 以 总 结 成 如 下 的 定理 。 

定理 6.4 考虑 一 个 NP 问题 如 下 . 

最 小 化 

SUX) = fx1, Xa, ts Xn) (6-151) 
受 限 于 
xES, Scr! (6-152) 

其 中 8 是 一 个 由 一 系列 等 式 或 不 等 式 定义 的 约束 集 (PHIR) 。 定 义 无 约束 最 优化 问题 
序列 如 下 : 

最 小 化 

q(K;, x) = f(x) + KP(x) (6-153) 
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其 中 P 是 一 个 罚 函 数 ， 满 足 


P(x)>0 对 于 rE R™! (6-154) 
P(x)=0 当 且 仅 当 xEsS (6-155) 

Ki,j=1,2,…， 是 一 个 实数 序列 ， 满 足 
Ki>0 Vj (6-156) 
Ku>K, Vj (6-157) 
K, > oasj > % 以 任意 方式 (6-158) 


令 癸 },j=1,2,…， 是 式 (6-153) 给 出 的 无 约束 最 优化 问题 的 解 序列 。 序 列 他 让 的 极限 点 
就 是 式 (6-151) FR (6-152) 中 的 NP 问题 的 解 。 

为 了 简洁 ， 省 略 定理 6.4 的 证 明 。 有 兴趣 的 读者 可 以 在 Luenberger[4] 中 找到 更 多 的 细节 。 
定理 6.4 本 质 上 概括 了 罚 函 数 法 的 方法 论 。 可 以 看 出 ， 由 式 (6-153) ~ (6-158) 产生 了 无 
约束 最 优化 问题 序列 ， 而 其 序列 的 解 收敛 到 原始 NP 问 题 的 解 。 从 神经 网 络 的 观点 看 ， 求 解 这 
个 无 约束 最 优化 问题 的 序列 明显 是 不 可 接受 的 。 因此 ， 惩 罚 方法 的 实际 实现 通常 采用 如 下 两 
种 方式 : 

1. 罚 参数 KE 是 时 变 的 ， 它 随 着 网 络 的 训练 过 程 而 增加 。 

2. 罚 参数 KE 要 选择 一 个 足够 大 的 正 数 ， 确 保 无 约束 问题 是 对 原 NP 问 题 的 一 个 接近 的 近似 。 

一 旦 修正 目标 函数 确定 ， 则 任何 一 种 梯度 技术 都 可 用 来 执行 最 小 化 任务 。 为 了 简化 ， 将 
演示 最 速 下 降 法 的 使 用 。 然 而 ， 共 轿 梯 度 法 、 牛 顿 法 和 拟 牛 顿 法 都 可 以 提供 显著 加 快 的 收敛 
速率 [4]， 虽 然 代 价 是 增加 了 计算 复杂 性 。 

应 用 最 速 下 降 方法 ， 可 以 依照 下 式 产生 更 新 方程 


x(k +1) = x(k)- pL (6-159) 


其 中 A > 0 是 学 习 率 参数 ， 式 (6-159) 右边 的 梯度 项 依赖 于 罚 函 数 的 选择 。 例 如 ， 当 能 量 函 数 
的 形式 如 式 (6-150), ikp, = 2 和 p: = 1， 则 


ofa(x) f(x) Oh (x) 
ranean «|S —i h(x) + 


> 总 maoso (6-160) 
Ox 


imp+l 


FEX (6-160) 代入 式 (6-159) ， 有 如 下 的 学 习 规则 


To), Kye oh, AD hx )+K $- = maxi0, sia (6-161) 


imp+l 


x(k +1) = x(k) - u| -—— 





这 个 过 程 的 神经 网 络 体 系 结构 实现 如 图 6-11 所 示 。 注 意 ， 仅 呈 现 了 神经 网 络 的 一 部 分 ， 
它 是 用 来 计算 由 独立 变量 向 量 的 一 个 分 量 。 同 样 注意 ， 这 个 网 络 符合 NP3 问 题 的 一 般 情况 。 
即 它 适应 等 式 和 不 等 式 约束 。 由 图 6-12 中 的 网 络 ， 通 过 除去 负责 不 等 式 约束 (NP1 的 情况 ) 或 
等 式 约 束 (NP2 的 情况 ) 的 部 分 ， 可 以 导出 NP1 和 NP2 问 题 的 适当 网 络 。 

例 6.4 考虑 如 下 的 NP 问 题 : 

最 小 化 

f(x) = exp[(x, — 1.5)’ + x3] (6-162) 
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图 6-12 NP3 问 题 离散 时 间 网 络 的 罚 函 数 法 的 实现 ， 等 式 (6-161) 的 实现 


x +x3-1<0 (6-163) 
上 述 问 题 明显 是 一 个 具有 不 等 式 约 束 的 NP 问 题 〈( 即 NP2) 。 修 正 的 罚 函 数 可 以 写成 
f,(x) = exp[(x, -1.5) + x2]+ 宁 maxtox +x; -1) (6-164) 


通过 使 用 最 速 下 降 法 ， 更 新 方程 可 以 写成 : 


N 
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x (k+1)= x (k)- w(x, -1.5)exp[(x - 1.5)? +.x2] 

(6-165) 
+K[sgn(x? +23 -1) + 1}, } 
x(k +1) = x,(k)~ u{2x, exp[(x, - 1.5)? + x3] + K[sgn(x; + x? -1)+1}x,} (6-166) 


其 中 sgn(v) = JJ 是 符号 函数 。 图 6-12 所 示 的 神经 网 络 体系 结构 常常 用 来 确定 NP 问 题 的 
解 。 网 络 的 参数 通常 选 作 K = 5, m= 0.01， 设 初始 解 为 x = [0 1.5]。 这 个 网 络 在 大 约 1900 步 迭 
代 内 收敛 ， 解 的 轨迹 如 图 6-13 所 示 。 





图 6-13 例 6.4 中 NP 问题 解 的 轨迹 


KAT BRAT HELM Be 

如 同 早先 讨论 的 ， 只 要 罚 参数 的 值 足够 大 ， 无 约束 最 优化 问题 式 〈6-150) 的 解 可 以 任意 
接近 原始 NP 问 题 的 解 。 然 而 ， 如 果 对 天 选择 一 个 非常 大 的 值 ， 罚 函数 的 黑 塞 矩 阵 可 能 呈现 病态 。 
当 NP 问 题 的 解 在 约束 条 件 构成 的 超 曲面 上 时 (参见 例 6.4)， 一 个 很 大 的 罚 常数 可 能 会 导致 算法 
在 边界 的 振荡 。 如 果 检 测 到 这 种 现象 ， 算 法 必须 把 学 习 率 参数 4 减 到 一 个 很 小 的 值 以 获得 收 全 

由 罚 函 数 法 推导 出 的 更 新 方程 基于 某 类 梯度 学 习 法 ， 比 如 ， 最 速 下 降 法 ， 共 轿 梯 度 法 ， 
牛顿 法 等 等 。 因 此 ， 它 们 都 受到 一 个 对 所 有 梯度 法 都 存在 的 共同 问题 的 困扰 一 一 局 部 最 小 值 。 
为 了 防止 算法 的 搜索 落 到 修正 罚 函数 (x) 的 局 部 最 小 值 ， 可 以 使 用 随机 退火 法 。 可 以 推出 基 
于 这 种 方法 的 更 新 方程 如 下 





rkr- w+ on (6-167) 
其 中 n E 中 ”是 随机 产生 的 具有 零 均 值 和 单位 方差 的 白 噪声 向 量 ， 即 
E{n'n} =1 (6-168) 


吕 是 在 网 络 训练 过 程 中 向 零 递 碱 的 参数 。 大 的 中 值 可 以 使 算法 脱离 局 部 最 小 值 ， 而 小 的 
值 “ 微 调 ” 以 达到 最 优 解 。 
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6.4.2 障碍 函数 NP 方 法 的 神经 网 络 


与 罚 函 数 法 相似 ， 障 碍 法 用 于 把 一 个 约束 NP 问题 转换 成 一 个 等 价 的 无 约束 问题 或 一 系列 
无 约束 问题 。 为 了 完成 转换 ， 用 可 以 防止 解 偏离 可 行 域 的 障碍 国 数 来 增 广 NP 问 题 的 原始 代价 
国 数 。 为 了 阐明 这 一 点 ， 考 虑 式 (6-134) 和 式 (6-135) 给 出 的 NP2 类 型 的 非 线 性 规划 问题 。 
障碍 函数 法 如 下 转换 问题 : 

最 小 化 


Fæ) -= f(x)+ = Bux) (6-169) 


其 中 K > 0， 是 用 来 控制 障碍 函数 的 参数 ，B(x) 是 任何 有 如 下 性 质 的 函数 : 

1. x ES 时 B(x) =0， 其 中 SC 名”*' 是 由 式 (6-135) 中 不 等 式 条 件 确定 的 可 行 域 。 

2. 当 向 量 x 接近 可 行 域 的 边界 时 B(xX) 一 +%。 

理想 状态 下 ， 障 碍 函数 应 该 在 可 行 域内 接近 边界 的 地 方 趋向 无 穷 大 ， 在 可 行 域内 的 其 他 
任何 地 方 都 为 零 。 实 际 应 用 中 ， 最 常用 的 障碍 函数 如 下 : 





1 
1. B(x) = 6-170 
(x) ore ( ) 
2. Bex) =~ Inka) (6-171) 


由 于 式 (6-170) 和 式 (6-171) 中 的 障碍 函数 在 可 行 域内 为 非 零 值 ， 所 以 参数 K 应 该 取 一 
个 相当 大 的 值 来 最 小 化 障碍 项 在 除了 边界 以 外 的 其 他 地 方 时 对 NP 代价 函数 的 影响 。 然 而 ,下 
取 大 的 值 会 导致 问题 呈现 病态 ， 通 常 是 在 训练 过 程 中 加 大 K 值 。 注 意 式 (6-170) MA (6-171) 
的 两 个 障碍 函数 在 可 行 域 的 边界 上 都 是 不 连续 的 。 这 点 给 它们 在 NP 问题 中 的 使 用 加 上 了 两 个 
严格 的 限制 。 第 一 ， 因 为 函数 在 边界 上 不 连续 ， 不 能 用 于 有 等 式 约束 的 NP 问题 。 第 二 ， 对 于 
许多 有 不 等 式 约束 的 NP 问题 ， 解 正好 就 在 边界 上 (参见 例 6.4)。 障 碍 函数 的 一 些 缺 点 可 以 通 
过 应 用 Cichocki 和 Unbehauen[2] 与 Nash 和 Sofer[9] 中 介绍 的 混合 惩罚 法 来 去 除 。 

与 罚 函 数 法 不 同 ， 障 得 函数 不 允许 试验 点 x 脱离 可 行 域 。 这 对 于 最 优化 可 能 在 到 达 最 优 
点 区 之 前 就 中 止 ( 比 如 代价 函数 低 于 某 个 预先 确定 的 值 时 ) 的 NP 问题 ， 可 能 是 有 用 的 。 在 构 
造 出 修正 惩罚 函数 后 ， 任 何 一 种 无 约束 最 优化 方法 都 可 以 用 来 确定 式 (6-169) 的 最 优 解 。 与 
罚 函数 法 相似 ， 可 以 证 明 式 (6-169) 的 解 在 K 一 %[7] 时 收敛 到 原始 NP2 癌 题 的 解 。 


6.4.3 ”普通 拉 格 朗 日 乘 子 NP 方 法 的 神经 网 络 


与 罚 函数 法 和 障碍 函数 法 相似 ， 拉 格 朗 日 乘 子 法 通过 把 约束 合并 到 一 个 修正 目标 函数 中 
来 处 理 约束 。 在 拉 格 朗 日 乘 子 法 的 神经 网 络 实现 过 程 中 ， 首 先 考虑 NP1 形 式 的 NP 问 题 〈 即 ， 
有 等 式 约 束 的 NP 问 题 ) 。 同 样 的 方法 可 以 扩展 到 有 不 等 式 约束 的 NP 问 题 。 

NP1 问 题 的 拉 格 朗 日 乘 子 

NP 问 题 拉 格 朗 日 乘 子 方法 的 应 用 (参见 A.6.2 节 ) 要 求 把 NP 问题 转换 成 一 个 无 约束 最 优 
化 问题 。 这 个 无 约束 问题 是 通过 把 约束 乘 以 一 个 作为 比例 因子 的 拉 格 朗 日 乘 子 加 到 目标 函数 
中 形成 的 。 新 的 目标 函数 称 为 拉 格 朗 日 算 子 ， 其 形式 如 下 : 


L(x,A)= f(x) + > Ah (x) (6-172) 


N 
人 
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其 中 x E R”! A= [hi, A, °°, A) ER! 

式 (6-172) 中 的 无 约束 问题 总 共有 n + m 个 未 知 数 ， 其 维 数 比 原始 约束 问题 要 高 ， 即 最 优 
化 操作 发 生 在 只 空间 中 。 在 最 小 点 ， 无 约束 最 优化 问题 的 目标 函数 必须 满足 稳定 条 件 。 对 
A (6-172) 中 的 拉 格 朗 日 算 子 ， 稳定 条 件 可 以 写作 








AL(x,A) _ af(x) CR, h(x) _ 
ax + DA ax (6-173) 
和 
oe = [h (x), h, (x), -h, (x)! =0 (6-174) 


其 中 0 表示 恰当 维 数 的 零 cae) ma 等 式 (6-173) 和 式 (6-174) 形成 了 由 n + m 个 未 知 数 
构成 的 n + m 个 方程 的 系统 ， 需 要 求解 独立 变量 的 最 优 值 和 拉 格 朗 日 乘 数 ， 即 (ZA), EE 
式 (6-174) 确保 最 优 解 满足 所 有 的 约束 ， 换 旬 话 说， 在 最 优点 x 
L(x,A) = f(x) (6-175) 
神经 网 络 方法 通过 采用 某 种 基于 梯度 的 技术 的 迭代 方式 来 解决 式 (6-173) 和 式 (6-174) 
的 方程 组 系统 。 对 于 最 速 下 降 法 ， 有 如 下 两 个 学 习 规则 [2] 





x(k +1) = x(k)- 0 (x) $a =] (6-176) 
大 Ox 

和 

Mk + 1) = ACK) + alh), hole), + Ay T (6-177) 
标量 形式 如 下 
of (x(k) ¥& dh, (x(k)) 

x (k+1)=x,(k)- H, a t dre) 3x, | (6-178) 

和 
NE+D= A) + phx) (6-179) 


Kpu, m> 0 是 学 习 率 参数 。 

拉 格 朗 日 乘 子 法 的 实际 实现 中 有 几 个 问题 。 在 6.3 节 已 经 看 到 ， 如 果 目 标 函 数 不 是 凸 的 ， 
就 会 有 多 个 局 部 极 小 点 ， 并 且 最 小 化 过 程 很 容易 陷 人 其 中 某 点 。 在 使 用 拉 格 朗 日 乘 子 方法 的 
情况 下 ， 即 使 原始 代价 函数 x) 是 凸 的 ， 也 丝毫 不 能 确保 式 (6-172) 中 拉 格 朗 日 算 子 也 是 凸 
的 。 此 外 ， 在 一 些 情况 下 , 式 (6-178) FOX (6-179) 中 的 迭代 方法 可 能 会 在 一 个 局 部 极 小 
点 附近 振荡 。 为 了 防止 振荡 ， 强 制 算法 收敛 ， 可 以 在 式 (6-177) 中 附加 一 个 阻尼 因子 


AL(x(k), MP) 
a 


Ak +1) = A(k) + u, ~ aA(k) (6-180) 


其 中 0<as<1， 称 为 阻尼 参数 。 

这 个 过 程 的 神经 网 络 体系 结构 如 图 6-14 所 示 。 

NP2 问 题 的 拉 格 朗 日 来 子 方法 

在 NP2 问 题 中 ， 约 束 是 以 不 等 式 的 形式 给 出 的 。 通 过 加 上 适当 的 额外 变量 ， 式 (6-135) 中 
的 不 等 式 可 以 转换 成 等 式 ， 可 以 使 用 上 一 节 中 介绍 的 方法 。 这 个 方法 通过 下 面 的 例子 来 示范 。 
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图 6-14 拉 格 朗 日 乘 子 神经 网 络 的 离散 时 间 实 现 。 方 程 (6-178) 和 方程 (6-179) R 


示 这 个 学 习 规则 
例 6.5 考虑 如 下 的 NP2 问 题 : 
最 小 化 
f(x) = x7 -1.4x, +x 
受 限 于 
x? +I 
通过 加 一 个 额外 变量 水 ， 原 始 问题 可 以 转换 如 下 : 
最 小 化 
f(x) =x) -1.4x, +3 
受 限于 


x +x El 
或 
x? +x +l 
上 述 问题 的 拉 格 朗 日 公式 可 以 表示 为 
L(x, A, 0) =x? — 1.4x +x + AGP 4x3 + P-1) 
应 用 稳定 条 件 ， 有 
aL(x,A,0) 
x) 
oL(x, 4,0) 
OX, 


=2(1+A)x,-14=0 


=2(1+A)x, =0 


203 


(6-181) 


(6-182) 


(6-183) 


(6-184) 


(6-185) 


(6-186) 


(6-187) 


(6-188) 


N 
j=) 
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ƏL(x,A,0) 
aa 
oaL(x, A,0) 
00 


=x) +x +0°-1=0 (6-189) 


=240=0 (6-190) 


由 式 (6-190), 或 者 4=0, MHO=0; 或 者 1= 0 和 069= 0。 把 4= 0 代入 式 (6-187) ~K (6-189) 

中 ， 得 到 解 z = 0.7, x. = 0, 9 = 0.37。 可 以 求 出 代价 函数 的 值 为 Kx x) = 一 0.49。 如 果 把 6= 0 

代入 式 (6-187) ~sh (6-189)， 系 统 的 解 就 是 x, = 1, x = 0, 和 = 一 0.3。 在 第 2 个 解 的 点 ， 代 价 

函数 的 值 为 Kx x) = 一 0.4。 最 后 ， 和 = 0，6 = 0 代 人 和 方程 无 解 。 比 较 代 价 函 数 在 两 个 稳定 点 

WE, BE, Æx = 0.7,x = 0 达到 最 小 化 。 而 第 2 个 解 是 拉 格 朗 日 算 子 的 局 部 最 小 点 。 
一 般 情况 下 ， 对 于 NP2 问 题 ， 拉 格 朗 日 函数 如 下 


Le A,8)= f+ Ñ alge) (6-191) 
4 
应 用 稳定 条 件 ， 得 到 
AL(x,A,8) _ af(x) ， $ 4, 28 -0 jh (6-192) 
Ox, Ox; T= OX; 
dL(x,A,8) = g,(x)-0? =0 i=1,2,---,m (6-193) 
aA, 
PLAB) 0 0 12 (6-194) 


MK (6-194) ， 可 以 看 到 三 种 不 同情 况 : 或 者 4 = 0， 或 者 9 = 0， 或 者 两 者 全 部 为 零 。 

1. MRA, = 0, 0,40, MAW He(x)<OR TRH, TAM. MB, “Ke (x)<0n 
存在 并 不 改变 最 优化 的 结果 。 

2. RRA; #0, 9; = 0， 则 最 优 解 在 可 行 域 的 边界 上 ， 或 在 曲线 g(x) = 0 上 。 

3. 如 果 罗 = 0, 9; = 0， 则 由 g;(x) = 0 给 出 的 可 行 域 的 边界 通过 代价 函数 的 全 局 极 小 点 。 

神经 网 络 方法 是 用 一 种 梯度 技术 和 和 迭代 的 方式 求解 式 (6-192) ~ (6-194) 中 的 方程 组 
系统 。 与 这 种 方法 相关 的 几 个 问题 已 经 在 前 一 节 中 概述 了 。 

从 不 等 式 约束 到 等 式 约束 的 转换 增加 了 非 线性 规划 问题 的 维 数 。 对 于 每 一 个 转换 得 到 的 
等 式 ， 引 入 一 个 附加 的 变量 。 尽 管 这 在 小 规模 的 情况 下 不 成 问题 ， 但 在 有 大 量 不 等 式 的 情况 
下 ,会 显著 地 增加 计算 负担 。 因 为 这 个 原因 ， 在 Golub 和 Van Loan[2] 和 Press 等 [13] 中 ， 常 规 的 
拉 格 朗 日 乘 子 法 根据 如 下 的 等 式 扩展 到 不 等 式 约束 


x ud SBD) far... 6-195 
x,(k +1) = x,(k) u| 2x, +o x | j=1,2,.…,n ( ) 
和 

AK+D)= max{0, A (k) + ng} i=1,2,.,m (6-196) 
其 中 7 > 0 表示 学 习 率 参数 。 


这 个 过 程 的 神经 网 络 体系 结构 实现 如 图 6-15 所 示 。 从 图 中 可 以 看 出 ， 它 与 图 6-14 中 的 体系 
结构 非常 类 似 。 唯 一 的 区 别 是 求 取 式 (6-196) 中 max 函 数 的 非 线性 元 素 。 
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图 6-15 具有 不 等 式 约束 的 NP 问 题 的 拉 格 朗 日 乘 子 神经 网 络 的 离散 时 间 实 现 。 方 程 (6-195) 
和 方程 (6-196) 给 出 了 学 习 规 则 


6.4.4 增 广 拉 格 朗 日 乘 子 方法 的 神经 网 络 


增 广 拉 格 朗 日 乘 子 方法 是 解决 NP 问题 的 最 有 效 的 一 般 性 方法 之 一 。 它 由 Hestens[14] 和 
Powel[15] 分 别 独 立地 提出 。Gil 等 人 [17] 提 供 了 关于 对 这 些 类 型 的 最 优化 问题 进行 广泛 研究 
的 其 他 参考 。 增 广 的 拉 格 朗 日 乘 子 法 对 式 (6-132) ~ 式 (6-138) 中 的 所 有 三 种 类 型 的 NP 问 
题 都 是 可 行 的。 简单 起 见 ， 首 先 介 绍 它 在 具有 等 式 约束 的 NP 问题 中 的 使 用 ， 青 讨论 它 对 具有 
不 等 式 或 混合 约束 的 NP 问题 的 扩展 。 

NPI1 问 题 的 增 广 拉 格 表 日 方法 

根据 前 一 节 ， 与 式 (6-132) 和 式 (6-133) 中 定义 的 约束 NP 问题 相关 的 拉 格 朗 日 函数 如 下 


L(x,A) = Fea) Shea) (6-197) 


增 广 拉 格 朗 日 算 子 是 由 式 (6-197) 增加 了 额外 惩罚 项 得 到 的 。 增 广 拉 格 朗 日 算 子 的 最 常 
用 形式 在 [17, 18] 中 给 出 ` 


L,(x,A,k) = f(x)+ > Ah; (x) +> kih; (x) (6-198) 


其 中 入 = [A An An E 路” 表示 拉 格 朗 日 乘 子 向 量 , k= [k ka , kal E R” EEEN 
参数 向 量 。 

可 以 看 出 式 (6-198) 增加 了 二 次 惩罚 项 ， 也 就 增加 了 拉 格 朗 日 函数 的 黑 塞 和 矩阵 的 正定 性 
[16, 171]。 此 外 ， 如 果 大 中 的 系数 足够 大 ， 就 可 以 强制 拉 格 朗 日 函数 的 黑 塞 矩 阵 的 所 有 特征 值 都 
大 于 零 ， 从 神经 网 络 实现 的 角度 看 ， 这 是 很 重要 的 ， 因 为 是 用 迭代 的 方式 搜索 解 。 已 经 提 到 
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过 (参见 定理 6.2) ， 如 果 国 数 在 某 个 集合 上 是 凸 的 ， 则 可 以 确保 基于 梯度 的 搜索 方法 收敛 到 
局 部 极 小 点 。 黑 塞 矩 阵 正 定 的 事实 确保 存在 解 的 一 个 领域 使 得 函数 是 了 凸 的 ， 由 此 ， 如 果 最 优 
化 过 程 的 起 始点 选择 得 当 ， 算 法 一 定 收敛 到 全 局 极 小 点 。 在 有 了 增 广 拉 格 朗 日 算 子 后 ， 最 优 
解 即 是 无 约束 极 小 点 。 这 可 以 用 任何 一 种 无 约束 最 优化 技术 实现 。 最 简单 地 ， 可 以 使 用 最 速 
下 降 法 ， 拉 格 朗 日 算 子 的 最 小 化 转换 成 一 个 差分 方程 形式 的 系统 


x(k +) = x(k) — u, Leh (6-199) 
Ox 

和 

A(k +1) = AK) + u, Tean (6-200) 
求 出 式 (6-199) 和 式 (6-200) 中 梯度 的 值 ， 产 生 如 下 的 更 新 方程 
x (k+1)=x,(k)- 0s > [A, (k) + 2k,h, (x(k))] oh, aaa) ` (6-201) 
i Ox, 

和 

NT+1)=NCOT+HCECOD) (6-202) 


其 中 心 , fa > 0 表示 学 习 率 参数 。 

A (6-201) 和 式 (6-202) 的 神经 网 络 实现 如 图 6-16 所 示 。 这 个 网 络 由 两 个 独立 模块 组 成 。 
第 一 个 模块 执行 解 的 更 新 ， 第 二 个 模块 更 新 拉 格 朗 日 乘 子 。 早 期 的 增 广 拉 格 朗 日 方法 建议 对 
解 x 和 拉 格 朗 日 乘 子 使 用 不 同 更 新 率 [13, 171。 而 且 ， 在 这 些 早 期 版 本 中 ， 在 每 次 更 新 拉 格 朗 
日 乘 子 之 前 ， 都 要 对 zx 执行 一 次 完整 的 无 约束 最 小 化 。 这 个 过 程 证 明 是 非常 低 效 的 ， 因 为 解 的 
精确 性 依赖 于 拉 烙 朗 日 乘 子 估 计 的 精确 性 ， 在 拉 格 妆 日 乘 子 收敛 到 最 优 值 = 和 之 前 ， 算 法 无 
法 收敛 到 最 优 值 x= 荆 。 基 于 这 些 观察 ， 一 些 不 同 的 更 新 策略 被 提出 [2, 15-18]。 式 (6-201) 
和 式 (6-202) 中 提出 的 算法 是 一 种 极端 情况 ， 解 的 估计 和 拉 格 朗 日 乘 子 的 估计 在 每 一 步 选 代 
中 都 被 计算 。 本 质 上 ， 这 个 算法 在 每 个 挝 代步 都 提出 了 不 同 的 最 优化 问题 ， 并 且 与 称 作 基于 
QP 的 投影 拉 格 朗 日 方法 [17] 联 系 紧 密 。 

增 广 拉 格 朗 日 乘 子 方法 有 几 个 重要 的 性 质 应 当 考 虑 [17]， 

1. 局 部 最 小 点 性 质 。 与 惩罚 函数 法 相似 ， 增 广 拉 格 朗 日 乘 子 法 确保 收敛 到 增 广 拉 格 朗 晶 
算 子 的 局 部 最 小 点 。 增 广 拉 格 朗 日 算 子 的 局 部 最 小 点 只 在 惩罚 参数 上 足够 大 的 情况 下 才 收敛 到 
目标 函数 的 约束 最 小 点 。 

2. 惩罚 参数 的 选择 。 一 般 来 说 ， 需 要 选择 使 增 广 拉 格 朗 日 算 子 的 黑 塞 矩 阵 正 定 的 惩罚 参 
数 。 如 果 惩 罚 参 数 的 值 太 小 ， 算 法 将 不 能 收敛 ， 或 是 虽然 收敛 到 增 广 拉 格 朗 日 算 子 的 局 部 最 
小 点 ， 但 却 不 能 最 小 化 目标 函数 。 另 一 方面 ， 如 果 参 数 选 择 得 过 大 ， 算 法 会 在 解 的 附近 表现 
出 振荡 行为 。 

3. 拉 格 朗 日 梯子 的 收 黎 性 。 对 于 式 (6-201) 和 式 (6-202) 中 的 算法 ， 要 找到 最 优 解 必 
须 使 x 和 A 都 收敛 到 最 优 值 三 和 和 包 。 在 某 些 情况 下 ， 增 广 拉 格 朗 日 算 子 对 乘 子 的 值 很 敏感 ， 并 
且 ， 在 获得 收敛 前 需要 相当 数量 的 迭代 步 又 [17]。 

NP2 问 题 的 增 广 拉 格 朗 日 方法 

前 一 节 的 增 广 拉 格 朗 日 乘 子 法 可 以 扩展 到 具有 不 等 式 约束 的 NP 问 题 。 为 了 实现 这 点 ， 增 
广 拉 格 朗 日 算 子 必 须 改 成 
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图 6-16 增 广 拉 格 朗 日 乘 子 法 的 离散 时 间 神 经 网 络 实现 。 学 习 规 则 由 式 (6-201) 
和 式 (6-202) 给 出 


L(x,A) = f(x)+ > A, max {0, g,(x)} + > Sma, gF (6-203) 


其 中 心 ， i = 1, 2, …, 7 是 拉 格 朗 日 乘 子 ， K;, i= 1, 2, wy 1 是 惩罚 参数 。 如 同 在 式 (6-203) 中 看 
到 的 ， 任 何 对 约束 的 违反 都 会 增加 拉 格 朗 日 算 子 的 值 。 即 只 认为 被 违反 的 约束 是 有 效 的 。 式 
(6-203) 可 以 写成 一 种 更 紧凑 的 形式 





L(x,A) = f(x) + ys [ase + Feo] (6-204) 
其 中 
0 如果 g(x) <0 
at 如 果 g(x) > 0 (6-205) 
为 了 推导 出 相应 的 神经 网 络 ， 更 新 方程 可 以 根据 下 式 获 得 
x(k +1) = x(k) - u, LY) (6-206) 
Ox 
和 
Ak +1) = Mk) p =e (6-207) [283 
t} 
把 式 (6-204) 的 适当 梯度 代入 式 (6-206) 和 式 (6-207) 后 ， 得 到 284 


x(k +l = -ph | oe X sla + Keat] (6-208) 
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和 
AKk + 1) = AK) + LSj8 x(k)) (6-209) 
这 个 过 程 的 神经 网 络 结构 实现 如 图 6-17 所 示 。 





图 6-17 用 增 广 拉 格 朗 日 乘 子 法 解决 有 不 等 式 约束 的 NP 问 题 的 神经 网 络 的 离散 时 间 实 现 。 方 
F (6-208) 和 方程 (6-209) 表示 两 个 学 习 规 则 


例 6.6 ”用 增 广 拉 格 朗 日 乘 子 法 考虑 例 6.4 中 的 问题 。 对 于 式 (6-133) 和 式 (6-134) 中 的 
问题 ， 增 广 拉 格 朗 日 算 子 写作 


L(x,A) = exp[(x, -1.5)2 + x2]+ Amax{0,x7 +3 - 1) +É maxo. +x -1P (6-210) 


相应 的 导数 计算 如 下 
aL(x,A 
ae = 2(x, -1.5)exp{(x, - 1.5)? + x3] (6-211) 
+2x,(sen(x? + x? -1)4+1)[A+ K(x? +x; -1)] 
L(x, À 
“= = 2x, exp[(x - 1.5)? + x2] (6-212) 
+2x,[sgn(x? + x2 -1)+1][A + K(x; + x? -D) 
和 
PLA) tspn(x? +x -1) +12 +x? -1) (6-213) 


ar 
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图 6-17 中 的 网 络 可 以 用 来 执行 最 优化 任务 。 网 络 的 参数 可 以 设置 成 例 6.4 中 的 值 ， 即 K =5, 


4 = 0.01。 初 始 条 件 选择 zx(0) = 0, x2(0) = ORAO) = 1。 在 大 约 700 步 迭代 后 网 络 收敛 到 解 志 = 
[1.008 8, 0.000 2]7。 . 


习题 


6.1 


6.2 


6.3 
6.4 


写 一 个 MATLAB 程 序 ， 实 现 如 图 6-1 所 示 神 经 网 络 方法 。 用 求解 如 下 LP 问 题 测试 程序 : 
(a) 最 大 化 ”flx) = 2x, + 4x, l 
ZRF x 一 所 1 
3x, + 2x,<12 
2x, + 3x,<3 
— 2x, + 3x, <9 
X;,%,20 
(b) 最 大 化 ”fx) =x, + 2x, 
SRT —x,+%.<1 
一 X11 十 Xx 之 一 1 
xX, + Xs 所 4 
Xp X20 
(0) 最 小 化 f(x) = 一 52 一 加 
受 限于 x, x, <2 
xX, + 2x,<8 
X;,x,20 
(d BAL f(x) =10x, + 19x, + 9x, 
受 限 于 2x, + 3x. + 2x,<10 
Xi Xp, %320 
对 于 每 个 问题 : 
* 将 问题 转换 成 标准 形式 。 
。 使 用 神经 网 络 方法 解决 最 优化 问题 。 
* 用 作 图 的 方法 来 解决 问题 ， 并 且 把 结果 与 用 神经 网 络 获得 的 结果 进行 比较 。 
写 一 个 MATLAB 程 序 实现 图 6-3 所 示 神 经 网 络 方法 。 
(a) 使 用 神经 网 络 方法 解决 问题 6.1。 
(b) 作 图 解决 问题 ， 并 验证 神经 网 络 获得 的 结果 。 
(c) 从 复杂 性 和 收敛 速度 的 角度 来 比较 图 6-1 和 图 6-3 中 网 络 的 性 能 。 
重复 问题 6.2， 使 用 图 6-4 给 出 的 神经 网 络 。 
考虑 具有 不 等 式 约束 的 LP 问题 ， 定 义 如 下 
最 小 化 flx) = cz 
受 限 于 Ax>b 
它 的 对 偶 问 题 SAA 
最 大 化 g(a) = bA 
受 限 于 ATA=c ASO 
其 中 4 E R”, x, e ER, BAER", BBM ACH (参见 6.1! 节 定理 6.1)， 能 量 函 数 


m 


y. 
y 
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定义 为 
E(x, Ay= S(e"x- BAY + 二 Zara- cy (ATA- o+ 2 lojar- bjt 


HpveEeNR' 


max {0,2),} 


0(v) = max{0, v} 


max{0,v, } 


对 偶 定 理 可 以 用 来 推导 一 个 迭代 过 程 ， 同 时 解决 原来 的 LP 问题 和 对 偶 LP 问 题 。 

(a) 用 梯度 方法 和 上 面 定 义 的 能 量 函 数 ， 推 必 + 和 A 的 更 新 方程 。 注 意 x 应 该 依照 最 速 下 降 
来 更 新 ， 而 和 则 应 依照 最 速 上 升 来 更 新 。 

(b) 设计 一 个 神经 网 络 来 实现 部 分 (a) 的 方程 。 

(c) 写 一 个 MATLAB 程 序 来 模仿 部 分 (b) 中 的 神经 网 络 。 用 如 下 的 LP 问题 来 测试 代码 


2 1 
5 =[-3 -16 -207 A=|-1 -3| c=[-1-17 
-4 -1 








使 用 牛顿 梯度 方法 (参见 A.5.3 节 ) 需要 计算 黑 塞 矩阵 的 逆 。 考 虑 式 (6-20) 中 具有 不 等 
式 约 束 的 LP 问 题 定 义 的 能 量 函 数 。 
(a) 证 明 式 (6-20) 中 国 数 的 黑 塞 矩 阵 可 以 这 样 计算 
H = V?E (x)= KAA 

(b) 证 明 式 (6-20) rP eR AR EERE Ae T . 
(c) Levenberg-Marquardt 算 法 (参见 3.4.4 节 ) 可 以 用 来 提供 快速 收敛 ， 即 使 黑 塞 矩阵 是 

奇异 的 。 这 个 方法 的 更 新 方程 如 下 

x(k) = x(k) - (ul + H) 'g 

KPEQ) EER /MEMGER BR, H=VIE(x), g = YE，1 是 相应 维 数 的 单位 矩阵 ， 

并 且 4 >0。 

。 推 导 式 (6-20) 的 能 量 函 数 的 Levenberg-Marquardt 更 新 方程 。 

。 写 一 个 MATLAB 程 序 来 实现 Levenberg-Marquardt 方 法 。 

。 用 问题 6.1 的 LP 问题 测试 你 程序 的 性 能 。 
方程 (6-61) 给 出 了 有 混合 约束 的 LP 问题 的 能 量 函 数 ， 此 函数 用 式 (6-21) 和 式 (6-40) 
构成 一 种 可 能 组 合 。 
(a) 用 式 (6-20) 和 式 (6-48) 构造 一 个 另 能 量 函 数 。 
b) 基于 部 分 (a) 的 能 量 国 数 和 最 速 下 降 方 法 ， 推 导 更 新 方程 组 。 
(c) 设计 一 个 神经 网 络 实现 部 分 (b) 中 的 方程 组 。 
(d) 写 一 个 MATLAB 程 序 实现 部 分 (c) 中 的 方程 组 ， 并 且 用 问题 6.1 中 的 LP 问 题 测 试 你 

的 程序 
式 (6-90) ) 中 有 等 式 约束 的 QP 问 题 的 更 新 方程 组 是 由 最 速 下 降 法 推导 得 到 的 。 证 明 用 如 
下 方法 可 以 得 到 另外 一 组 方程 
(a) 牛顿 法 

x(k +1) = x(k)— (Q + KATA)" + Ox(k) + ATK) + KAAx(k) — ]} 
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(b) Levenberg-Marquardt 法 
x(k + 1) = x(k) - (ul + Q + KATA) {c+ Ox(k) + ATMA) + KAT[Ax(k)— 5)} 
其 中 4 > 0。 
为 了 演示 惩罚 函数 法 的 使 用 ， 孝 虑 如 下 NP 问题 : 用 
最 小 化 f(x) = -xx 
受 限 于 h(x) = 3x, +x%.-7=0 
其 精确 解 是 x， = 7/6 Fix, = 7/2, 
(a) 以 如 下 形式 构造 能 量 国 数 
F(x) = f(x) +Kh(x) K>0 
并 且 证 明 无 约束 最 小 点 在 下 面 点 处 得 到 
14K 42K 
x, = ， t= 
12K -1 12K -1 
(b) RES BAH BEBE, HAME EMRE 〈 是 有 的 函数 ) 。 条 件数 定义 成 
À max 
pa 
其 中 x 和 Ns 分 别 是 矩阵 最 大 和 最 小 的 特征 值 。 
(c) 从 解 精度 的 观点 和 梯度 搜索 过 程 稳定 性 的 角度 来 讨论 参数 K 的 影响 。 
(d) 写 一 个 MATLAB 程 序 来 实现 图 6-12 中 的 神经 网 络 ， 并 用 它 来 解决 上 述 的 NP 问 题 。 用 
不 同 的 K 值 做 试验 。 
考虑 一 个 NP 问题 ， 定 义 如 下 a 
最 小 化 f(x)=e@™ -xx +x 
受 限 于 Vtt 
2x, + X5<2 
这 是 一 个 NP3 形 式 的 问题 。 即 ， 既 有 等 式 约 束 又 有 不 等 式 约束 。 处 理 这 个 问题 的 一 种 方 
法 是 使 用 混合 惩罚 障碍 法 形成 一 个 增 广 代价 函数 。 例 如 ， 混 合 惩罚 障碍 国 数 可 以 写作 
. o,i yt 
f= f+ KV h(a) + K Dale Gr 
其 中 h(x) 是 等 式 约束 ，gi(X) 是 不 等 式 约束 ，pi, p: 是 正 数 。 
(a) 给 出 上 述 NP 问 题 的 混合 惩罚 障碍 增 广 代价 函数 。 
(b) 使 用 最 速 下 降 梯 度 法 和 部 分 (a) 中 的 代价 函数 导出 更 新 方程 组 。 
(c) 写 一 个 MATLAB 程 序 实现 部 分 (b) 中 给 出 的 方程 组 ， 用 这 个 程序 解 上 述 NP 问 题 。 
确保 迭代 过 程 的 初始 点 落 在 与 不 等 式 约束 相关 联 的 可 行 域 中 。 
(d) 用 不 同 的 参数 K 值 做 试验 ， 讨 论 结果 作为 kK 的 函数 的 收敛 性 和 精确 性 。 设 计 一 个 更 新 
方案 在 迭代 过 程 中 自动 增加 有 ， 相 应 地 修改 部 分 (c) 中 的 MATLAB 代 码 。 








6.10 考虑 下 述 NP 问 题 : a 


But f(x)= +a 
SRF x t= 1 
X, tx, =2 


显然 ， 这 个 问题 的 约束 有 冲突 的 设置 并 且 无 法 解决 。 然 而 ， 如 果 应 用 德 罚 方法 ， 可 以 
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如 下 构造 一 个 增 广 代价 国 数 
f(x) = x? +x? + K[(x, + x) - 1)? +(x, +x, -2)7] 
(a) 忽略 这 个 问题 没有 解 的 事实 ， 推 导 增 广 代 价 函 数 的 无 约束 最 优化 问题 的 更 新 方程 组 。 
(b) 写 MATLAB 代 码 实现 部 分 (a) 中 的 方程 组 并 且 执 行 无 约束 最 优化 。 
(c) 解释 结果 
考虑 如 下 具有 不 等 式 约束 的 QP 问题 : 
最 小 化 flx, y) =x -xy + y—3x 
受 限 于 x+y 和 4 x, y>0 
(a) 用 向 量 矩 阵 形式 重新 描述 问题 。 
(b) 写 一 个 MATLAB 程 序 实现 图 6-8 中 的 神经 网 络 。 把 上 述 QP 问 题 转化 为 标准 形式 ， 并 
且 使 用 你 的 MATLAB 程 序 解 决 问题 。 
(c) 写 一 个 MATLAB 程 序 实现 图 6-10 中 的 神经 网 络 。 通 过 解决 上 述 的 QP 问题 来 测试 你 的 
程序 。 
(d) 使 用 图 6-11 中 所 示 的 神经 网 络 方法 来 重复 部 分 (c)。 


a 6.12 ”使 用 增 广 拉 格 朗 日 乘 子 法 来 解决 下 述 NP 问 题 


最 小 化 f(x)=x)p +x 
受 限 于 x? 4+x5-10=0 
1—x,<0 
1—-x,<0 
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第 7 章 用 神经 网 络 解决 矩阵 代数 问题 


7.1 概述 


本 章 将 介绍 矩阵 代数 中 的 几 个 重要 概念 。 目 的 不 仅 是 为 了 拓宽 读者 关于 和 盾 阵 代数 概念 的 
知识 ， 而 且 是 为 了 采用 结构 神经 网 络 的 神经 计算 方法 的 方式 来 表达 问题 。 就 是 说 ， 以 一 种 能 
够 利用 结构 神经 网 络 解决 问题 的 方式 来 表达 特定 的 问题 ， 这 个 神经 计算 方法 有 可 能 设计 出 高 
效 且 健壮 的 算法 ， 特 别 是 服务 于 实时 (或 联机 ) 应 用 的 算法 。 神 经 网 络 的 并 行 计算 特性 能 够 
以 相对 直接 的 方式 实现 用 于 这 类 问题 的 大 规模 并 行 学 习 算法 。 即 将 给 出 的 数学 概念 并 不 是 新 
的 ， 但 是 ， 在 一 些 情 形 中 给 出 的 神经 计算 算法 是 比较 独特 的 ， 并 有 实际 的 应 用 。 而 且 ， 本 章 
采用 了 统一 的 方法 导出 学 习 规则 。 

结构 神经 网 络 首先 由 Wang 和 Mendel[1] 提 出 ， 是 为 特殊 的 矩阵 代数 应 用 量 身 定做 的 神经 体 
系 结构 。 例 如 ， 确 定 矩 阵 的 逆 可 以 有 很 多 种 方法 [2]。 但 是 ， 如 果 需 要 重复 计算 矩阵 的 逆 ， 应 
该 使 用 更 有 效 的 方法 ， 利 用 算法 所 具有 的 并 行 结 构 。 本 章 将 给 出 解决 矩阵 代数 问题 的 多 种 方 
法 ， 比 如 ， 和 矩阵 求 逆 ，LU 分 解 ，QR 分 解 ， 舒 尔 (Schur) 分 解 ， 对 称 特征 值 问 题 ， 夺 异 值 分 
解 ， 求 解 代数 矩阵 李 雅 普 诺 夫 方 程 和 求解 代数 矩阵 里 卡 蒂 (Riccati) 方程 。 

将 介绍 的 算法 与 类 神经 元 自 适应 信号 处 理 系 统 有 关 。 所 有 学 习 算 法 都 基于 第 3 章 所 讨论 的 
误差 反 向 传播 算法 。 此 外 ， 绝 大 部 分 本 章 介绍 的 用 于 解决 矩阵 代数 问题 的 神经 网 络 都 由 线性 
处 理 单元 组 成 。 有 观点 认为 线性 网 络 只 能 处 理 线性 函数 ， 并 且 一 个 多 层 线性 网 络 总 是 可 以 通 
过 调整 权 值 [3] 变 换 为 只 有 一 层 线性 处 理 单元 的 体系 结构 ， 从 这 种 观点 看 ， 线 性 神经 元 是 没有 
什么 意义 的 。 然 而 ， 在 本 章 会 看 到 线性 多 层 神经 网 络 对 许多 计算 任务 非常 有 用 。 因 此 ， 在 本 
章 ， 将 采用 线性 神经 网 络 (结构 神经 网 络 ) 来 解决 相对 较 大 类 的 矩阵 代数 问题 。 

本 章 中 用 神经 网 络 来 解决 特定 矩阵 代数 问题 的 基本 方法 包含 四 个 阶段 。 这 些 方法 与 参考 
文献 [1, 4,5, 6] 中 的 方法 相似 ， 有 具体 如 下 : 

1. 第 一 阶段 是 为 待 解 决 的 特定 类 型 的 问题 构造 合适 的 误差 代价 函数 。 该 误差 代价 函数 基 
于 定义 的 误差 变量 ， 这 些 误差 变量 一 般 通 过 能 解决 这 个 特定 的 问题 的 函数 网 络 来 表达 。 这 样 ， 
问题 基本 上 是 由 结构 多 层 神 经 网 络 来 表达 。 

2. 第 二 阶段 是 最 优化 阶段 ， 使 用 第 一 阶段 定义 的 误差 代价 函数 为 这 个 结构 神经 网 络 推 导 
一 个 合适 的 学 习 规 则 。 一 般 都 采用 批量 形式 (或 向 量 和 矩阵 形式 ) 来 推导 学 习 规则 。 一 旦 推导 
出 学 习 规 则 的 向 量 和 矩阵 形式 ， 就 能 相对 直接 地 表达 成 标量 形式 。 

3. 第 三 阶段 是 用 第 二 阶段 设计 的 学 习 规则 来 训练 神经 网 络 ， 使 之 符合 所 期 望 的 模式 ， 即 
输入 /输出 信号 配对 。 因 此 ， 实 质 上 网 络 是 使 相关 联 的 误差 代价 函数 取 最 小 值 的 最 优化 过 程 。 
就 是 说 ， 训 练 阶段 是 根据 推导 的 学 习 规则 来 调整 网 络 的 突 触 权 值 ， 以 最 小 化 相关 的 误差 代价 
函数 。 对 于 本 章 介绍 的 很 多 学 习 规 则 ， 都 可 以 利用 式 (2-36) 的 学 习 率 参数 的 搜索 然后 收敛 
调度 策略 来 提高 收敛 速度 。 

”4. 第 四 阶段 也 就 是 最 后 一 个 阶段 实际 上 是 应 用 阶段 。 结 构 神 经 网 络 可 以 针对 某 个 特定 的 
输入 集合 产生 合适 的 输出 信号 ， 从 而 解决 特定 的 问题 。 
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计算 矩阵 的 逆 可 能 是 线性 代数 中 最 重要 的 一 个 问题 [21。 已 有 很 多 种 方法 用 来 计算 矩阵 的 
逆 或 伪 逆 。 然 而 ， 对 于 某 些 情况 一 些 实时 应 用 (比如: 自 适应 信号 处 理 ， 机 器 人 技术 和 自动 
控制 ) 所 必需 的 在 线 计 算 ， 这 些 方法 却 常常 不 具有 可 操作 性 。 因 此 ， 目 标 是 设计 能 够 实时 实 
现 的 计算 矩阵 逆 (或 伪 逆 ) 的 方法 。 实 现 这 个 目标 的 一 个 途径 是 使 用 类 神经 元 处 理 器 ， 应 用 
神经 计算 技术 来 求 矩阵 逆 。 

方法 1: HRE 

第 一 种 方法 可 能 是 最 直接 的 途径 ， 假 设 待 求 逆 的 矩阵 为 4 E 中 “"[6]。 显 然 矩阵 4 是 方 阵 ， 
还 假设 4 非 奇 异 。 稍 后 会 发 现 其 实 4 是 方 阵 且 非 奇异 的 假设 实际 并 不 需要 。 将 计算 矩阵 4 的 逆 C = 
4 ， 可 以 写 为 ; 


N 
Kel 
U 


AC=CA=I (7-1) 
IE R "fbn x ”的 单位 矩阵 。 如 同 许 多 能 用 来 计算 4 的 逆 的 神经 计算 方法 一 样 ， 将 加 进 一 个 确 
定 的 误差 代价 函数 (或 能 量 函数 ) 来 控制 算法 (或 学 习 规 则 ) 去 训练 神经 网 络 是 必需 的 。 方 
法 1 使 用 线性 最 小 二 乘法 ， 其 中 的 误差 代价 函数 定义 为 : 


E(C)= Z trace(BE" (7-2) 


由 式 (7-1) 推 得 误差 矩阵 E E RA: 
E=AC—I (7-3) 
注意 ， 由 式 (7-1), EWA LAE = Ch 一 I。 然 而 ， 尽 管 这 将 导致 学 习 规则 变化 ， 但 
是 结果 (BPA) 却 是 相同 的 。 
一 个 简单 的 基于 最 速 下 降 法 的 连续 时 间 学 习 规 则 可 以 推导 出 如 下 的 矩阵 微分 方程 组 : 
ac E0 
ac 


gC | _ ww EC- 
dt UV &(C) = -K 


Kipu > 0 是 学 习 率 参数 ， 必 须 选 取 足 够 小 的 4 来 确定 保 收敛 到 逆 C。 式 (7-4) 的 离散 时 间 形 
式 可 以 写成 如 下 的 差分 方程 组 : | 
Ck +1) = C(k)— uVe E (C) (7-5) 
Afi BS AT eS], Bk = 0, 1,2, …。 因 此 ， 式 (7-2) 中 误差 代价 函数 的 梯度 必须 计算 。 
如 下 : 


(7-4) 





T _ ð 1 _ 了 aT _ 
5 trace( BE | - jc {zc DICTA n} 


l race(ACC"AT - AC- C'A" + n| (7-6) 


=A'AC-A' =A'(AC-D=A'E 
ee 


上 面 的 推导 中 用 到 了 两 个 标量 对 矩阵 求 导 的 一 般 结果 ， 即 ， 


tace(BAC) =B'CT (7-7) 
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ð r 
tr = - 
“A ace(BA'C)=CB (7-8) 


以 及 合适 的 链 式 规则 (chain rule， 参 见 A.3.4.2 节 )。 因 此 ， 使 用 式 (7-6) 的 结果 , 式 (7-5) 
的 离散 时 间 学 习 规则 如 下 : 


Cie + 1) = Ck) +pA'[I—AC(k)] (7-9) 
如 果 用 误差 矩阵 有 来 表达 ， 则 上 述 学 习 规 则 的 另 一 种 形式 如 下 : 
Clk +1) = C(k) — pATE(K) ` (7-10) 
FAR, WRIA SURE = CA -I， 则 相应 的 学 习 规则 如 下 . 
C(k+1)=C(k)+ LI 一 C(O4]47 (7-11) 
或 用 误差 矩阵 E 来 表达 ， 则 学 习 规 则 如 下 : 
C(k +1) = C(k) — nuE(RAT (7-12) 


如 前 所 述 ， 式 (7-9) 和 式 (7-11), 或 式 (7-10) 和 式 (7-12) ， 将 产生 相同 的 结果 。 

基于 式 (7-9) 或 式 (7-11) 所 表示 的 学 习 规 则 可 以 马上 得 到 两 个 结论 : (1) 计算 4 的 逆 
不 需要 除法 运算 ， 只 要 乘法 和 加 法 (或 减法 ) 。 因 此 ， 无 论 矩 阵 4 是 否 奇异 ， 进 代 过 程 都 会 产 
生 一 个 解 。 事 实 上 ，4 可 以 推广 到 4 E R”, 4m = n 了 时 ， 是 一 个 完全 确定 系统 。 对 于 一 个 由 
代数 方程 组 4x =b, xE R, DER RAHA, m> n 有 时， 是 一 个 超 定 组 (overdetermined 
system); 24m < n 时 ， 是 一 个 欠 定 方程 组 (underdetermined system), Hb, X (7-9) 和 式 
(7-11), 或 式 (7-10) 和 式 (7-12) 都 可 以 用 来 推广 计算 矩阵 4 E ROH at. RU A E 
细 解 释 。(2) 从 式 (7-10) 或 式 (7-12) 可 以 看 出 ， 用 来 训练 神经 网 络 的 学 习 规 则 是 基于 误 
差 反 向 传播 的 。 这 在 大 多 数 用 以 解决 矩阵 代数 问题 的 结构 神经 网 络 中 是 具有 典型 性 的 。 

当 计算 矩阵 4 E QR”*" 的 伪 逆 时 ， 定 义 误差 矩阵 成 : 

E=ACA-A ` (7-13) 

其 中 E CR", CHAE R™”, ARA = 4 的 伪 逆 。 ARIA (Moore-Penrose; Lit) (HB 
见 A.2.7 节 ) FASE: 


C=A*=(A'A)'A’, for m>n (7-14) 
或 
C=A‘*=A'(AA’)"', for m<n (7-15) 
如 果 误 差 代 价 函 数 仍 写作 : 
Z(O) = 了 ace(EE7) (7-16) 


其 中 的 误差 矩阵 5 采用 式 (7-13) 中 的 定义 ， 则 多 (C) 的 梯度 计算 如 下 : 
VeE(C) = 1an = A’ 4C44 - A‘ AA" (7-17) 
geist (7-17) 中 的 梯度 最 小 〈 即 在 全 局 极 小 点 处 ， 误 差 代价 函 数 逼 近 零 ) ， 就 有 下 式 成 立 ， 
A'ACAA!' — AAA" = ATA(CA 一 DA =0 (7-18) 
ATACAA' — ATAA" = A'(AC -DAA =0 (7-19) 
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如 果 式 (7-18) 的 两 端 都 左 乘 (4”4)-'， (假设 这 个 逆 存 在 )， 则 基于 最 速 下 降 法 ( 即 
式 (7-5)) 的 学 习 规 则 与 式 (7-11) 相同 。 另 一 方面 ， 如 果 式 (7-19) WAARAAN ' ( 同 
样 假设 这 个 逆 存 在 )， 则 导出 的 学 习 规 则 与 式 (7-9) 相同 。 因 此 ， 式 (7-9) 和 式 (7-11) 中 
给 出 的 学 习 规 则 ， 虽 然 是 在 4 为 方 阵 且 4 非 奇异 的 假设 条 件 下 导出 的 ， 却 对 在 一 般 情形 下 对 于 
求 4 的 伪 逆 同样 有 效 。 但 是 为 了 在 一 般 情 形 下 表示 误差 ， 必 须 使 用 式 (7-13) 的 表达 式 。 这 种 
计算 一 个 矩阵 的 伪 逆 的 递归 方法 与 奇异 值 分 解 (SVD) (参见 A.2.14 节 ) 的 方法 相似 。 
由 式 (7-9) ， 计 算 和 矩阵 广义 赣 的 学 习 规 则 的 向 量 年 阵 形式 如 下 : 
C(k + 1) = C(k) + uA —AC(k)] = CCK) + HAC) (7-20) 
这 个 学 习 规 则 的 标量 形式 可 以 如 下 导出 。 首 先 把 式 (7-20) 中 的 更 新 项 AC(E) = A- 
AC(S R: 
AC(k) = A" — ATAC(k) (7-21) 
然后 ， 把 式 (7-21) 中 的 “固定 ”项 W = 4 4 写成 标量 形式 ， 


m 


Wi, = 5 Agi Qgh (7-22) 


$thi=1,2,--,n, h=1,2,--,n, Wik, MA (7-22) WA (7-9) 中 的 学 习 规则 的 标量 形式 
可 以 写成 : 


n 


c(k +1) =c; (k) + ula; - > wc (KDI (7-23) 


其 中 j = 1,2, …, m。 最 后 做 点 补充 说 明 ， 可 以 证 明 式 (7-4) 的 连续 时 间 学 习 规 则 可 以 用 一 个 
非 线性 矩阵 微分 方程 代替 ， 而 不 影响 最 终结 果 和 解 的 精确 性 [6, 7]。 这 个 非 线性 可 以 是 一 个 合 
适 的 函数 咏 . )， 它 的 自 变 量 就 是 式 (7-4) 中 的 梯度 ， 即 5[Vc ZC. 

方法 2: RE 

到 目前 为 止 ， 我 们 介绍 了 一 种 递归 计算 和 矩阵 伪 逆 的 学 习 规则 。 然 而 ， 相 关 的 神经 网 络 体 
系 结构 还 没有 给 出 。 现 在 给 出 另 一 种 计算 方 阵 伪 逆 的 神经 网 络 方法 。 这 个 方法 是 由 Wang 和 
Mendel 在 1992[1] 首 次 提出 的 ， 也 被 Cichocki 和 Unbehauen 提 出 过 [6]。 给 定 一 个 矩阵 4 E R”, 
求 它 的 逆 (或 ， 如 果 A 非 奇异 就 求 它 的 伪 逆 )， 即 求 C = 4-:。 这 种 神经 网 络 方法 是 一 种 恒 等 映 
射 方法 ， 它 可 以 由 图 7-1 的 方 框图 来 描述 。 由 图 7-1 可 以 看 出 ， 这 个 神经 网 络 在 作 线性 变换 = 
Ax 和 y = Ca。 因此 ， 经 过 训练 后 





图 7-1 使 用 恒 等 映射 方法 求 矩 阵 逆 的 结构 化 神经 网 络 方 框图 


y=Cu=CAx=Ix=x (7-24) 

第 一 个 问题 向 量 * 是 什么 ? 它 是 外 部 兴奋 输入 信和 号 (或 从 图 7-1 来 说 ， 是 期 望 信号 4d = x)。 
这 样 ， 神 经 网 络 经 过 训练 后 ， 输 出 信号 y 将 等 于 输入 信号 rx。 因此 ， 图 7-1 中 的 映射 误差 e = x-y 
将 为 0。 可 用 作 外 部 兴奋 信号 的 最 简单 输入 是 一 组 线性 无 关 的 二 值 向 量 , 如 xi = [1, 0,0, …, 0] ， 
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x= [0, 1, 0, ry oy, yk, = [0, 0, 0, wey 1]7。 然而 ， 为 了 在 训练 中 获得 更 快 的 收敛 速度 ， 最 好 
使 用 一 组 线性 无 关 的 双 极 值 向 量 ， x= {1,-1,-1, "217, X= [-1, 1,-1, dy, ye, = [一 1， 
一 1 一 1 =, 1][6]。 这 种 求 矩 阵 逆 的 神经 网 络 方法 与 经 典 的 基于 增 广 和 矩阵 求 朔 的 Gauss-Jordan 

消去 法 [8] 非 常 相 似 。 
Ans = {A:T} (7-25) 
Gauss-Jordan 消 去 法 只 是 对 增 广 矩 阵 4,。。 进 行 初 等 行 ( 列 ) 变换 ， 直 到 4 变 成 单位 矩阵 ， 
原来 的 单位 矩阵 变 成 4 的 逆 ， 即 {4 panh nn A '}。 学 习 规 则 的 向 量 和 矩阵 形 式 可 以 从 

误差 代价 函数 推出 

EO- helk- ee (7-26) 


其 中 e = x-y (映射 误差 )， 如 图 7-1 所 示 。 目 标 是 调整 C 来 最 小 化 式 《7-26) PH EC). R 
(7-26) 可 写成 : 


&(C)= lee- la -y Xx-y)= l'x- y -y x+y y) 
2 2 3 


2 
(7-27) 
= La's -x'Cu-u'C’x+u C’ Cu) 
基于 最 速 下 降 法 的 连续 时 间 学 习 规 则 可 以 写成 一 组 矩阵 微分 方程 如 下 : 
ae = -AVecE(C) (7-28) 


计算 式 (7-28) 中 必需 的 梯度 Vc E (C) 需 要 使 用 式 (7-7) MR (7-8) 中 的 一 般 结 果 。 因 
此 ， 计 算式 (7-27) 的 梯度 得 到 ， 


Ve&(C)= -xu" + Cuu” =-(x- Cuu” = -(x- yu" (7-29) 
y 
且 连 续 时 间 学 习 规 则 可 以 写成 
<o = pjx(t) - (Du (A) (7-30) 
其 中 以 > 0 是 学 习 率 参数 。 学 习 规则 的 离散 时 间 形 式 如 下 : 
CUK+HD=C(D+HUEOD 一 XRD] (7-31) 
其 中 
u(k) = Ax(k) 和 y(k) = C(k)u(k) (7-32) 
从 图 7-1 中 的 方 框图 可 知 。 式 (7-31) 和 式 (7-32) 中 的 学 习 规则 的 标量 形式 可 分 别 写 成 
ci(k +1)= ck) + ub, = yn, (7-33) 
Up = Dante 和 Ypk) = $, Ca Ou (7-34) 


其 中 i,j = |， 2, yn, k= 0, 1, 2, “pF 1, 2，…， n ( 即 前 述 的 "个 激励 双 极 值 输入 as). 
在 每 个 训练 回合 ， 这 Am 个 激励 输入 信号 都 要 提交 一 次 。 在 每 个 训练 回合 ， 这 个 线性 无 关 的 双 
极 值 向 量 都 可 随机 打 乱 提交 给 神经 网 络 的 顺序 。 图 7-2 展 示 了 用 映射 误差 法 求 矩 阵 逆 的 神经 网 
络 体系 结构 。 
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图 7-2 使 用 映射 误差 方法 求 矩 阵 逆 的 神经 网 络 体系 结构 。 第 一 层 由 固定 权 值 的 线性 神经 元 组 
成 (qj, i, f= 1, 2,…n)， 权 值 由 矩阵 4 的 行 给 出 。 第 二 层 由 自 适应 权 值 的 线性 神经 元 构 


成 (cj, i,j=1,2,…,n)， 权 值 由 4 ' 的 行 给 出 


例 7.1 下 面 的 例子 演示 了 两 种 神经 网 络 方法 计算 非 奇 异 矩 阵 逆 的 能 力 。 给 定 和 矩阵 


1 1 2 
3 2 3 
111 


PHAM AEH ROR, PAP LR, EAO: 
-1.0000 1.0000 -1.0000 


0.0000 -1.0000 3.0000 
1.0000 0.0000 -1.0000 


A= 








ce =A! = 





表 7-1 例 7.1 神 经 网 络 训练 细节 


OR EB a Ye 学 习 率 参数 训练 回合 数 
1 = 0.065 2 500 [C(k = 0) = 0] 
2 w= 0.015 2 500 [C(k = 0) = 0) 
2 Ho = 0.06 1 200 [C(k = 0) = 0] 
(使 用 搜索 然后 收敛 调度 ) T= 500 


与 式 (7-36) 所 示 同 样 的 结果 可 以 用 MATLAB 中 inv 函 数 获得 ， 记 作 C”。 表 7-1 总 结 了 两 


| 


(7-35) 


(7-36) 


ile” -cih 


8.004 8 x 107° 
4.798 6x 107$ 
5§.9149x 1075 


AAR A BE A AD ZB sR 7-1 | EERE (Se 
A.2.13 节 )。 如 A.2.13 节 所 述 ， 谱 范 数 可 以 作为 矩阵 最 大 的 奇异 值 计 算得 到 。 如 表 7-1 所 示 ， 各 
有 一 个 固定 的 学 习 率 参数 用 于 两 种 方法 。 式 (2-36) 给 出 的 学 习 率 参数 的 搜索 然后 收敛 调度 
策略 也 用 于 方法 2。 如 果 产 生 四 位 小 数 ，( 调 度 策略 对 方法 1 无 效 ) 获得 与 式 (7-36) 相同 的 结 
果 。 如 表 7-1 所 示 ， 使 用 学 习 率 参数 的 搜索 然后 收敛 调度 策略 提高 了 方法 2 算法 的 收敛 速度 。 
训练 回合 数 减 少 了 一 半 以 上 。 图 7-3 显 示 了 两 种 神经 网 络 (包括 应 用 搜索 然后 收敛 调度 策略 的 
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方法 2) 训练 来 计算 式 (7-35) 中 4 的 逆 的 过 程 中 的 均 方 误差 。 


10? 102 
求 矩 阵 逆 的 方法 1 





W 10-4 HK 
aK ak 
R Az 10-4 
F 10€ Eoy , 
6 i 
10-2 10 
“>: Search- \ 
10-10 10 then-converge | 
10°? 107"° l 
10° 10? 104 10° 10? 104 
训练 回合 数 训练 回合 数 
图 7-3 用 于 求 第 阵 逆 的 两 种 神经 网 络 在 训练 期 间 的 均 方 误差 
7.3 LU 分 解 


LU 分 解 (或 因子 分 解 ) 法 是 最 重要 的 矩阵 因子 分 解法 之 一 [8]。 原 因 是 ， 对 于 联 立 线性 代 
数 方程 组 表示 的 系统 ， 即 hx =b (试图 计算 解 x) ， 如 果 年 阵 4 © 和 R"*" 能 分 解 成 下 三 角 算 阵 L E 
R**"* 和 上 三 角 和 矩阵 UE 和 RR"*" 的 乘积 ， 那 么 问题 就 可 以 轻易 地 解决 。 即 ; 

A=LU (7-37) 

下 三 角 算 阵 LL 常常 取 单位 下 三 角 和 矩阵 ， 因 为 对 角 线 元 素 都 是 1。 在 矩阵 4 被 分 解 成 L 和 UU 之 
后 ， 两 个 三 角 系 统 可 以 用 反 向 代入 法 [8] 求 解 ， 即 ， 

Hokr: Ux=y 
由 式 (7-37) ， 显 然 可 以 把 4 的 LU 分 解 写成 
4-72p = (LDD U) = LU (7-39) 
其 中 D E RW** 是 一 个 非 奇 异 对 角 和 矩阵 ， 假 设 L 只 是 一 个 下 三 角 和 矩阵 而 非 单位 下 三 角 和 矩阵 。 由 此 
可 以 推断 矩阵 4 的 LU 分 解 并 不 一 定 是 唯一 的 。 然 而 ， 如 果 给 矩阵 4 加 上 特定 的 条 件 ， 那 么 唯一 
的 LU 分 解 的 确 存在 [2, 9]。 如 下 陈述 (来 自 Golub 和 Van Loan[2]) ; 

AE RMRACR™" west Fk=1,2,--,n—-1, det(4(1:k, 1:)) 40, MARFEAMLUA 
FAR, PLEER "是 单位 下 三 角 ，D E 有 0 "是 上 三 角 。 如 果 人 4 的 LU 因子 分 解 存 在 ， 且 有 
p(A) = 41 成立， 那么 这 个 LU 因子 分 解 叭 一， 并 且 det(4) = UU 的 对 角 线 元 素 的 乘积 。 

证 明 可 以 在 Golub 和 Van Loan[2] 中 找到 。 

如 果 假 设 存在 一 个 对 角 和 矩阵 D E WR***， 其 中 p(D) =n， 那 么 可 以 写 出 矩阵 4 的 LDU 因 子 分 解 为 

| A=LDU (7-40) 

这 样 ， 式 (7-40) 可 以 写成 
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L(DU) =A (7-41) 


(LD)U =A 
以 上 两 式 都 是 4 的 可 能 因子 分 解 。 
特殊 情况 下 ， 如 果 4 是 对 称 的 (BIA = 47) ， 那 么 因子 分 解 如 下 [2, 9] 
A = LDL" (7-42) 
此 外 ， 如 果 4 > 0( 即 4 是 正定 的 )， 那 么 D 的 对 角 元 素 都 是 非 零 正 值 ， 则 因子 分 解 可 进一步 
简化 。 就 是 说 ， 如 果 假设 D =A?， 则 A 称 作 D 的 平方 根 ( A = VD )， 且 4 的 LDZ7 因 子 分 解 可 以 写作 
A=LDL' = LA’L’ = (LA)(AL’) = LL (7-43) 
Horn L JF = PSE. K (7-43) 中 4 的 分 解 称 为 Cholesky 因 子 分 解 [2, 8,9). CER SAE pE 
阵 的 Cholesky 因 子 分 解 有 很 多 应 用 ， 一 
个 特别 重要 的 应 用 就 是 谱 因子 分 解 中 自 
相关 算 阵 的 因子 分 解 [10]。 在 控制 理论 
中 ， 和 矩阵 的 Cholesky 因 子 分 解 用 于 李 雅 
普 诺 夫 稳定 性 理论 [11]， 也 用 于 平方 根 “ 
ROR (Kalman) 滤波 [12]。 | 
一 般 而 言 ， 和 矩阵 4 可 以 是 长 方形 的 ， 四 
BPA E R”, HELU REHAL E 
R-v"HUE R"*" 然而， 讨论 仅 限于 4 图 7-4 用 于 LU 分 解 的 结构 化 神经 网 络 的 方 框图 。 注 意 该 神 
是 方 阵 的 情况 。 已 经 提出 了 许多 计算 矩 ”经 网 络 由 误差 反 向 传播 训练 
阵 LU 分 解 的 数值 方法 。 最 基本 的 方法 是 基于 高 斯 消去 法 及 其 变 体 ,比如 Crout 和 Doolittle[2, 9], 
其 他 数值 方法 可 以 在 Press[13] 或 [14] 中 找到 。 这 里 关心 的 是 设计 一 种 计算 矩阵 LU 分 解 的 神经 
计算 方法 ， 并 且 希 望 在 实时 应 用 背景 下 使 用 此 方法 。 图 7-4 是 执行 LU 分 解 的 结构 神经 网 络 的 方 
框图 ， 图 7-5 显 示 了 双 层 神经 网 络 体系 结构 。 


d= Ax 








图 7-5 一 个 通过 误差 反 向 传播 训练 的 实现 LU 分 解 的 两 层 神经 网 络 体系 结构 
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从 图 7-4 开 始 ， 对 于 一 个 给 定 的 外 部 激励 输入 信号 x*， 期 望 信号 (或 目标 信号 ) 由 d = 4x 给 
出 。 这 些 输入 信号 将 视 为 前 面 7.2 节 所 述 的 线性 无 关 双 极 值 向 量 。 并 且 ， 由 图 7-4， 可 以 把 向 量 
误差 信号 e 写 作 

e=d- y =Ax-Lz =Ax~LUx=(A~-LU)x (7-44) 
因此 ， 由 式 (7-44) 可 以 看 出 ， 对 于 一 个 合适 的 兴奋 信号 x， 在 神经 网 络 已 经 学 习 过 两 个 三 角 。 

矩阵 的 L 和 UU 的 元 素 之 后 ， 由 于 4 = LU， 所 以 误差 向 量 将 是 0。 现 在 用 式 (7-44) 可 以 定 
义 误差 代价 函数 ， 它 是 分 解 中 和 矩阵 L 和 UU 的 函数 ， 如 下 

&(L,U) = lie i= Lee- lia - LU)x} [(A - LU)x] 
2 2 2 (7-45) 
= s(x ATAR -x A'LUx - x'U' L Ax + x'U' L LUx) 

由 式 (7-45) 可 以 推出 两 个 基于 最 速 下 降 梯度 法 的 学 习 规 则 (用 于 计算 L 和 UV)。 高 散 时 间 
形式 的 学 习 规 则 是 

L(k + 1) = L(k)— uV, E (L, U) (7-46) 
和 

U(k + 1) = U(k)— uV, Ë (L, U) (7-47) 
Epu > 0， 是 学 习 率 参数 。 因 此 ， 我 们 必须 由 式 (7-45) 给 出 的 误差 代价 分 别 计算 式 (7-46) 
和 式 (7-47) 中 的 两 个 梯度 项 Vi E (L, MV E (L, U) K (7-45) 关于 和 矩阵 LL 的 梯度 可 以 用 
A (7-7)、 式 (7-8) 中 的 一 般 性 结果 和 合适 的 链 式 规则 来 求 出 。 结 果 是 


VE(LU)= -Axx U" + LUxx’U' = (一 4Y+ LUx)x"U" = -ez (7-48) 
因此 ， 由 式 (7-46) 和 式 (7-48)， 工 的 学 习 规 则 是 
L(k + 1) = L(k) + ue(k)z (kK) (7-49) 
其 中 
e(k) = [A — L(K)U(k) x(k) (7-50) 
由 式 (7-44) 和 图 7-4 中 的 方 框图 可 知 
z(k) = U(k)x(k) (7-51) 
A (7-45) FR 2E TCT eB BR EU BY BB BE 
Vy &(L,U) = -L Axx’ + L LUxx" = L (-Ax + LUx)x' = -L ex" (7-52) 
因此 ， 由 起 (7-47) 和 式 (7-52) ， 计 算 D 的 离散 时 间 学 习 规 则 是 
U(k + 1) = U(k) + UL (k + Lelk)x™ (k) (7-53) 


其 中 e( 昌 由 式 (7-50) 给 出 。 式 (7-49) ~ (7-51) 和 式 (7-53) 给 出 的 学 习 规则 的 向 量 年 
阵 形 式 并 不 能 求 出 矩阵 4 的 LU 分 解 ， 因 为 没有 对 工 和 乙 加 限制 。 就 是 说 ， 没 有 限制 了 是 对 角 线 
元 素 均 为 单位 元 素 的 下 三 角 ， 也 没有 限制 U 是 上 三 角 。 因 此 ， 现 在 给 出 式 (7-49) 一 式 (7-51) 
和 式 (7-53) 给 出 的 学 习 规则 的 标量 形式 ， 并 且 给 两 个 矩阵 的 元 素 加 上 合适 的 限制 。 单 位 下 
三 角 和 矩阵 L 的 学 习 规 则 的 标量 形式 是 

E(k +1) = 6,00) + pep (zi (hk) (7-54) 


ip 
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其 中 = 0, 1, 2, “yp = 1, 2, “on ( 即 前 述 的 "个 双 极 值 激励 输入 信和 号) 。 HLE Vi, j = 1, 
2,…, n) 的 限制 是 ， (1) 如果 i =j， 则 4 =1, (2) 如 果 i <j， 则 = 0; (3) mRi>j, WPR 
下 的 元 素 (连接 权 值 ) RHA (7-54) 更 新 。 式 (7-54) 中 e, 和 z, 的 标量 形式 可 以 这 样 计算 


lip = din — Yip (7-55) 
其 中 

d; = Yan (7-56) 

yp = X zn (7-57) 
和 

Zip = X i (7-58) 

= 

其 中 i = 1, 2,…, n。 


上 三 角 和 矩阵 的 学 习 规 则 的 标量 形式 是 


uk +1)= ui (kK) +u 





> E(k + Deh p (7-59) 


其 中 = 0, 1,2, =, p= 1,2,00, ns MUM Hu, Vi, j= 1, 2,…, n) 的 限制 是 ，(1) 如 果 
i> j, Wha, =0; (2) 如 果 i<j， 则 UU 中 剩 下 的 元 素 (连接 权 值 ) 根据 式 (7-59) 更 新 。 上 面 
给 出 的 加 在 L 和 U 上 的 限制 将 确保 学 习 规则 产生 正确 的 LU 分 解 。 观 罕 式 (7-54) 和 式 (7-59) 
中 学 习 规 则 的 标量 形式 , 现在 两 个 学 习 规 则 之 间 存 在 对 偶 关 系 。 在 式 (7-59) UU 的 学 习 规 则 中 ， 
先 计 算 下 三 角 和 矩阵 L 的 元 素 的 更 新 值 ， 然 后 更 新 0 的 元 素 ， 求 和 。 


7.4 QR 因子 分 解 


QR 因子 分 解 (或 正 交 三 角 化 ) 是 另 一 种 非常 重要 的 矩阵 分 解 ， 在 工程 与 科学 领域 广泛 地 
使 用 。 这 种 方法 在 计算 矩阵 的 全 部 特征 向 量 上 有 广泛 的 应 用 [2, 9]。QR 因 子 分 解 还 有 许多 别 的 
应 用 ,特别 是 在 信号 处 理 领域 [12, 15, 16]。 比 如 ， 平 方 根 自 适 应 滤波 方法 [12, 16] 和 最 小 二 乘 
格 型 滤波 器 [12] 的 基础 就 是 QR 因子 分 解 。 

EREA E R” (Ritm > n) 的 QR 因子 分 解 可 以 写作 [2, 6, 12, 17, 18] 


R 
A=9|4| (7-60) 


其 中 @ ER "BIER (M =1), RE W "是 一 个 上 三 角 和 矩阵 ，0 E ROB PE 
阵 。 然 而 ， 将 研究 4 是 方 阵 的 特殊 情况 ， 即 4 E 吕 ”"。 在 这 种 情况 下 ，4 的 QR 因 子 分 解 可 以 简 
单 地 写成 

A=QR (7-61) 
EPO ER "IEE (Mo = QQ’ = 1), FFHRER'E-TL=MEM, GHAR 
了 很 多 算法 可 以 把 4 因子 分 解 成 矩阵 Q 和 R， 比 如 ， 改 进 的 Gram-Schmidt， 快 速 Givens，block 
Householder 和 Hessenberg 方 法 [2]。 然 而 ， 本 节 用 来 计算 方 阵 的 QR 因子 分 解 的 神经 网 络 方法 是 
源 于 一 种 特殊 应 用 的 在 线 计算 需求 。 目 的 是 开发 一 种 在 矩阵 4 的 一 些 元 素 随 时 间 缓 慢 变 化 的 情 
况 下 ， 可 以 在 线 修 正 Q 和 R 的 神经 计算 方法 。 使 用 任 一 种 标准 的 QR 因子 分 解数 值 方法 [2, 9]， 
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根据 每 一 个 普通 矩阵 4 的 标准 值 ， 考 虑 神经 网 络 的 初始 权 值 由 该 值 确定 。 已 经 提出 两 种 神经 网 
络 体系 结构 用 以 解决 QR 因 子 分 解 问题 。 这 些 神经 计算 方法 都 是 基于 Wang 和 Mendel[4] 的 开创 
性 工作 和 Cichocki 和 Unbehauen[6] 提 供 的 素材 。 





图 7-6 QR 因子 分 解 的 (方法 1) 结构 化 神经 网 络 的 方 框图 


方法 1: QR 因 子 分 解 
图 7-6 显 示 了 第 一 种 执行 QR 因 子 分 解 的 结构 神经 网 络 的 方 框图 。 如 图 7-6 所 示 ， 定 义 了 两 
个 误差 向 量 z 和 6 。 误 差 向 量 z 可 表示 作 
@ =d - y = Ax - Qu = Ax-QRx =(A-QR)x (7-62) 
MX (7-62) 可 以 看 出 ， 在 神经 网 络 学 习 因子 分 解 (OMR) 时， 对 于 一 个 合适 的 外 部 激励 输 
入 信号 x， 误 差 向 量 将 会 逼近 零 。 为 了 推导 训练 神经 网 络 的 学 习 规 则 ， 我 们 把 误差 向 量 oe 
义 作 
@ = Ax -Qu (7-63) 
式 中 不 作 代 换 & = Rx， 而 是 保留 4 作为 一 个 辅助 变量 。 同 样 ， 由 图 7-6 中 的 方 框图 ， 误 差 向 量 6 
可 以 表示 作 
ê=v-u=Q"d -u =Q" Ax -Rx = (Q'A - Rx (7-64) 
EA (7-64) 中 ， 在 神经 网 络 学 习 QR 因 子 分 解 时 ， 对 于 一 个 合适 的 外 部 激励 输入 信号 zx， 误 
差 向 量 6 Hiei Ss. REA (7-64) 中 并 不 明显 。 然 而 ， 由 4 的 QR 因子 分 解 ， 即 和 4 = 
QR， 如 果 两 边 左 乘 Q "， 得 到 8 4 = 8 QR = R ， 就 可 以 看 出 结果 。 由 式 (7-64) 把 误差 向 量 
定义 为 
é=Q'd-u (7-65) 
其 中 wu 如 同 式 《7-63) 中 保留 作为 一 个 辅助 变量 。 可 用 的 最 好 的 兴奋 输入 信号 是 7.2 节 介绍 的 线 
性 无 关 双 极 性 向 量 组 。 可 以 定义 一 个 总 误差 代价 函数 为 
&(@,é) = ETECO, R), êQ, R)] = L Wei + 5 hele (7-66) 


其 中 v > 0 是 惩罚 参数 ， 它 可 以 使 代价 函数 的 两 项 之 间 保 持 适当 的 比例 。 一 般 v = 1。 最 小 化 式 

(7-66) 中 的 第 一 项 ， 确 保 矩 阵 4 被 分 解 成 两 个 矩阵 Q 和 RR。 最 小 化 式 (7-66) 中 的 第 二 项 ， 促 

使 矩阵 & 正 交 化 (MOQ = 1)。 这 里 的 目标 是 基于 梯度 最 速 下 降 法 推导 出 两 个 QC 和 R 的 学 习 规 

则 。 如 下 两 个 矩阵 微分 方程 可 以 推出 结果 

GQ") 
dt 


d&(@,é) 
aQ 





= -uV o&(E,ê) = -u (7-67) 
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Ro VS) „ŻEE ê) 


其 中 4 >l, FARBA. ETRA (7-67) AK (7-68) 中 的 导数 ， 可 以 用 和 矩阵 差分 方 
程 写 出 学 习 规则 的 离散 时 间 形 式 ， 分 别 如 下 


Q(k +1) = Q(k) - UV oF (E,e) (7-69) 





(7-68) 


和 
R(k +1) = R(k) ~ uV pF (2,6) (7-70) 
因此 ， 必 须 计 算式 (7-69) 和 式 (7-70) 中 的 两 个 梯度 项 。 为 了 计算 梯度 Vee), TOR 
式 (7-63) 和 式 (7-65) 中 的 两 个 误差 向 量 的 表达 式 ， 把 式 (7-66) 中 的 总 误差 代价 函数 写成 
&(@,é) = Lax - Quy (Ax - Qu) + 7(Q"d ~u)'(Q'd -u) 


= T(x" ATAx - x" A" Qu -u Q’ Ax +u” Q" Qu) (7-71) 


+ 5(@"00"a ~d'Qu-u'Q'd+u'u) 


通过 使 用 式 (7-7) 和 式 (7-8) 中 的 两 个 一 般 结果 和 合适 的 链 式 规则 (参见 A.3.4.2 节 )， 
可 以 由 式 (7-71) 得 到 梯度 Vog(e,6) 
VoS(2,6) = -Axu’ + Quu’ +vdd"Q-vdu" 
= —(Ax- A Quy’ tvdgid-w u) = -BUT + vde™ (7-72) 


因此 ， 由 式 (7-69) 和 式 (7-72), 0 的 离散 时 间 学 习 规则 的 批量 (HEER) 形式 可 以 写作 
O(k +1) = O(k) + ul)uT (k) - vå (kê (K) (7-73) 
其 中 4 > 0. v>0, ERA 8 人 分 别 由 式 (7-63) 和 式 (7-65) H, ulk) = Rx(k), X (7-73) 
中 @ 的 学 习 规则 的 标量 形式 可 以 写作 
qy(k +1) = 9, (k) + ule, (kju (k) - vd, (kê; (k) (7-74) 
其 中 i,j = 1, 2, …, n。 标 量 形式 的 ,6,d 和 uw 可 以 这 样 计算 


6i = >, anti 一 > Ginny (7-75) 
=| =] 


其 中 
Uip = Dik (7-76) 
= 
和 
ê = > nip 一 区 (7-77) 
其 中 
d, = Sarsy (7-78) 
= 


其 中 i = 1, 2,…, 7, 


w 





W 
oo 
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SLE RE ERAN OAL, Mu = Rx (由 图 7-6 的 方 框图 ) 来 代 换 式 (7-63) 和 式 (7-65) 
5 和 8 的 表达 式 中 的 辅助 变量 zx， 即 5= 4r-CRr 和 2=Q@d-Rr 。 总 误差 代价 函数 现在 可 以 
写成 


&(@,e) = Lax - QRx) (Ax - QRx) + 5 o'a ~ Rx)'(Q'd - Rx) 


(x A’ Ax - x’ A’ QRx - x" R'Q' Ax +x™R'Q' QRx) 


1 
2 (7-79) 
Vv 


+ 7(d 004 -d'QRx-x'R'Q'd +x" R' Rx) 
A (7-79) 中 误差 代价 函数 关于 R 的 梯度 是 
VE (E, ê) = -0 Axx’ +Q" Q Rx x T_yQ"dx™ +v Rx, x" 


=-@Q' (are Ax -Qu)x" -Q'd-u 4- Wx” (7-80) 


=-Q'éx’ -ver =-(Q" Fa veya" 


因此 ， 由 式 (7-70) 和 式 (7-80), RESES BBCi Ta) A >) SOLU A Tad BEBE FZ SK FT LA 5 
Rk +1) = R(k) + [Qk +1) E(k) +v (1H) (7-81) 
Hehy>0,v>0, Ai, AARBAE b= Re, PAAR pL NAS PR el, AL, 
PRERA i j = 1.2.0.0), Bis 时， 由 式 (7-81) 中 的 学 习 规则 决定 六 i> J, 
rj=O, K (7-81) 中 学 习 规则 的 标量 形式 可 以 写作 ， 当 i <j 


nj (k +1) = 1, (k) + > qyi(k + 1)e, (k) + vê, (k) |x; (k) (7-82) 


当 i > fit, r= 0。 其 中 i, j= 1, 2, …, n。 两 个 误差 项 的 标量 形式 已 经 在 式 (7-75) 一 式 
(7.78) 中 给 出 。 

方法 2: QR 因子 分 解 

图 7-7 中 的 方 框图 总 结 另 一 种 可 以 自 适应 地 执行 RR 因子 分 解 的 神经 计算 方法 。 相 应 的 多 层 
结构 化 神经 网 络 体系 结构 如 图 7-8 所 示 。 由 图 7-7 中 结构 化 神经 网 络 的 方 框图 ， 可 以 看 出 这 种 体 
系 结构 与 QR 因子 分 解 的 方法 1 非常 相似 。 实 际 上 ， 这 种 学 习 规 则 与 方法 1 的 学 习 规 则 很 相似 。 
然而 ， 作 为 一 种 可 以 用 误差 反 向 传播 法 训练 的 多 层 神经 网 络 ， 这 种 体系 结构 更 容易 实现 。 





图 7-7 QR 因子 分 解 (方法 2) 的 另 一 种 结构 


总 误差 代价 函数 定义 成 与 方法 1 完全 相同 ， 见 式 (7-66)。 由 图 7-7， 两 个 误差 向 量 写作 
ë= Ax-Qu (7-83) 
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图 7-8 QR 因子 分 解 ( 方 法 2) 的 多 层 结构 化 神经 网 络 


和 
é=u-Q'y (7-84) 

ATEREA RAH, GE SISK (7-69) 中 相同 的 最 速 下 降 梯度 
形式 。 在 式 (7-84) 中 ， 没 有 对 y 作 代 换 ， 因 为 这 个 向 量 被 当 作 常 量 。 理 由 是 ， 与 的 收敛 速率 
相 比 ,神经 网 络 学 习 正 交 甜 阵 Q 的 速度 相对 要 快 一 些 。 把 式 《7-83) 和 式 (7-84) RAR (7-66), 
并 计算 总 误差 代价 函数 对 QC 的 梯度 可 推出 Q 的 向 量 矩 阵 形式 的 离散 时 间 学 习 规 则 如 下 

QE+D) = QF) + le (k) + vy(k)e" (A) (7-85) 

其 中 4 > 0, v>0, e(k) 和 E(k) 分 别 由 式 (7-83) 和 式 (7-84) 给 出 ，u(k) = Rx(k), 并且 
yk) = Qulk). 

R 的 离散 时 间 学 习 规则 可 以 由 Q 的 总 误差 代价 函数 推出 ， 由 图 7-7 中 方 框图 ， 其 中 w 被 Rx 代 
换 。 对 及 采用 与 方法 1 式 (7-70) 中 相同 的 最 速 下 降 梯 度 形式 。 从 而 导出 R 的 向 量 和 矩阵 形式 的 离 
散 时 间 学 习 规 则 

R(k +1) = R(k) + uQ” (k + E(k) - ve(k) x" (k) (7-86) 
其 中 pk >0,v> 0。 加 在 RK 的 元 素 上 的 合适 限制 与 方法 1 中 的 限制 相同 。 
Q@ 和 有 R 的 学 习 规则 的 标量 形式 可 写作 
qi (k +1) = qy (k) + ule, (Ku (k) + vy; (ke N 
a ~ (7-87) 
7 (k +1) =1,(k) + ap) quik + Ve, (k) - vê, (k) |x; (k) 

HFRERER J= 1, 2,…, n)， 当 i<j 时 ， 根 据 式 (7-87) 中 的 学 习 规则 自 适 应 地 

REr i> ft, ry= 0。5,6,y 和 u 的 标量 形式 可 以 用 与 方法 1 中 相似 的 方式 来 计算 。 


7.5 FRIM 


SFR (Schur) 分 解 [2] 是 另 一 种 矩阵 因子 分 解 方法 ， 它 把 矩阵 4 © R DRA EE 
阵 Q E WR" 和 一 个 上 三 角 和 矩阵 RE 名" ， 从 而 4 可 以 写成 
A= QRO (7-88) 
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治 着 上 三 角 和 矩阵 及 的 对 角 线 向 下 的 元 素 是 矩阵 4 的 特征 值 。 由 式 (7-88) 矩阵 R 可 写作 
R=D+N=O40O (7-89) 
其 中 D © R "是 一 个 对 角 线 上 为 4 的 特征 值 的 对 角 和 矩阵 ，N € 咒 "“ “是 严格 的 上 三 角 [2]。 
Wang 和 Mendel[4] 首 先 提 出 了 一 种 对 方 阵 进行 舒 尔 分 解 的 结构 化 神经 网 络 。 这 里 给 出 的 方 
法 与 他 们 提出 的 方法 相似 。 图 7-9 展 示 了 舒 尔 分 解 的 网 络 方 框图 。 由 该 图 可 写 出 两 个 误差 向 量 
€ = Ax - QRb (7-90) 





其 中 
b=Q"x (7-91) 


é=x-Qb (7-92) 
Hast (7-90) 和 式 (7-91) 明显 可 以 看 出 ， 当 神经 网 络 学 习 4 的 舒 尔 分 解 ( 即 Q 和 R) 时 ， 
对 于 一 个 合适 的 外 部 激励 输入 信号 ， 误差 向 量 将 收敛 到 零 。 此 外 , 由 式 (7-91) 和 式 (7-92) 
可 以 看 出 ， 当 神经 网 络 学 习 舒 尔 分 解 中 的 正 交 矩阵 @ 时 ， 对 于 一 个 合适 的 外 部 激励 输入 信号， 
误差 向 量 6 将 收敛 到 零 。 
使 用 式 (7-90) 和 式 (7-92) 中 的 两 个 误差 向 量 ， 可 以 定义 一 个 如 QR 因子 分 解 式 (7-66) 
的 总 误差 代价 函数 。 训 练 神经 网 络 的 离散 时 间 学 习 规 则 在 形式 上 与 QR 因子 分 解 完 全 一 样 ， 已 
BEA (7-69) 和 式 (7-70) 中 给 出 。 总 误差 代价 函数 给 出 如 下 : 


G(5,6) = L A 5 lê? = Lax -QRb)' (Ax - QRb) + z0 - Qb) (x- Qb) 
= SOx AT Ax ~x7A’QRb - b” R'Q" Ax + b” R™Q" QRb) (7-93) 
+a” x-x'Qb-b'Q"x+b'Q"Qb) 
其 中 v > 0 是 惩罚 参数 。 由 式 (7-93) ARA (7-7) 和 式 (7-8) 中 给 出 的 标量 对 和 矩阵 微分 的 一 
般 性 结果 ， 可 以 计算 式 (7-69) 和 式 (7-70) 中 的 梯度 项 。 如 下 


VoS(2,6) = -Axb’' R” + QRbb' R” — vxb" + vQbb" 
= -(Ax - QRb)b’ R” -v(x - Qb)b" 
Se peg (7-94) 
= -gb R’ -veb’ = -eu -veb™ 
T 
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和 
V,& (€,€) = -Q’ Axb’ + Q’QRbb’ = -Q (Ax 一 CRD)D =-Q' eb" (7-95) 
因此 ，Q 和 R 的 两 个 学 习 规 则 分 别 如 下 
O(k +1) = O(k) + peu (k) + vêlk)b” (k) (7-96) 
和 
R(k +1) = R(k) + uQ” (k +1e(k)b" (k) (7-97) 


其 中 4> 0,v>0 GAW, v=1), w=Rb,b=Q'x, | Fl esr Ae (7-90) 和 式 (7-92) 给 出 。 最 
后 ， 因 为 R 限 制 为 一 个 上 三 角 ， 尖 < ft, A (7-97) 中 的 学 习 规则 应 用 于 R 的 /个 元 素 《连接 权 
E) WAGER, Sims, rj=0 (7= 1 2 … 门 。@ 和 R 的 学 习 规则 的 标量 形式 分 别 给 出 如 下 

qy(k +1) = q; (k) + ule, (ou, (+ vê, (Eb, (A) (7-98) 
. Hebi, = 1,2, =, nM 


r(k +1) = 1, (k) + Hl Sane + Dz, Py) (7-99) 
其 中 i < j; 4i>JH, rj = 0， 且 对 于 前 述 的 a 个 双 极 性 兴奋 输入 向 量 ，p = 1, 2, …, n。 辅 助 变 
量 的 标量 形式 如 下 


n 


u; = S abh (7-100) 


b, = Dy tm (7-101) 
= 


其 中 i = 1, 2, … n。 两 个 误差 项 的 标量 形式 如 下 


Ep = > Gin X pp 一 > Fins (7-102) 
= =| 


êp = Xin 一 Dab (7-103) 
其 中 i = 1, 2, …, n。 对 于 4 为 对 称 和 矩阵 ( 即 4 = A) 的 特殊 情况 ， 最 好 的 外 部 激励 输入 信和 号 是 
让 x 为 一 个 随机 向 量 ， 就 是 说 ， 是 零 均 值 高 斯 白 曝 声 单位 方差 .而 不 是 双 极 值 向 量 。 
7.6 谱 因 子 分 解 一 一 特征 值 分 解 (EVD) (对 称 特征 值 问题 ) 


如 果 一 个 方 阵 4 E 4 AN AO REA, Ans “Ty 入 和 相应 的 特征 向 量 w， Us, “1°, Un ( 列 向 
量 )， 则 可 以 构造 一 个 相似 (〈 非 奇异 ) 变换 
V = [fu Vn °°, Val (7-104) 


和 


矩阵 4 可 写作 - 
A=VAV"' (7-105) 
其 中 和 是 一 个 对 角 和 矩阵 ， 其 对 角 线 上 是 4 的 特征 值 [2, 8, 17, 18], Rp 





ww 


we 
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A= diaglA,, Ax, …, A,] (7-106) 

在 特定 情形 下 ， 如 果 4 有 非 相 异 (重复 ) REI, ERLA ELL]. A, {CPR 
于 讨论 4 有 相 异 特征 值 的 情况 。 

式 (7-105) 中 的 结果 可 以 从 标准 特征 值 问题 中 获得 (参见 A.2.9 节 ) 


(Ad —A)v, =0 (7-107) 
其 中 (i = 1, 2,…, n) 是 4 的 特征 值 ，v(i = 1, 2, …, 站 是 4 的 特征 向 量 。 把 式 (7-107) 写作 
Au, = Av, (7-108) 
Hhi=1,2,--,n, A 
[A Vn Ady, pv] = [AU,, Av, …, AYA (7-109) 
或 
[ivo tailing Ay Fay ro A tart] (7-110) 
或 
VA=AV (7-111) 
现在 式 (7-111) BHIV'', BAB 
A=VAV-! (7-112) 


而 这 正好 是 式 (7-105) 所 陈述 的 。 如 果 把 4 限制 为 对 称 和 矩阵 (BA = 4)， 这 就 引出 对 称 
特征 值 问题 ， 并 且 Y 还 是 正 交 的 ， 即 
YY=YW=7 (7-113) 
且 
Visv’ (7-114) 
因此 ， 每 个 有 相 异 特征 值 的 实 对 称 和 矩阵 可 以 通过 一 个 正 交 相 似 变换 对 角 化 。 男 一 种 陈述 
对 称 和 矩阵 4 的 特征 向 量 的 正 交 性 质 的 方式 是 
1 isj 
oo i=j 


Vi, j 


=ô; (Kronecker delta) (7-115) 





由 式 (7-112) 和 式 (7-114) 可 得 
A=VAV' =[u,,U,,°°-5U, }diaglA,,A,.--A, HU, W505 Uy) 
=A) +A,u,U; +--+ A VU = dave! (7-116) 
这 就 是 4 的 特征 值 分 解 。 由 式 (7-116) 明显 看 出 4 的 秩 就 是 "个 矩阵 秩 的 和 。 然 而 ， 这 些 
都 是 秩 为 1 的 外 积 和 矩阵 (由 4 的 特征 值 构成 )， 并 且 每 个 外 积 和 矩阵 都 乘 以 一 个 相应 的 特征 值 。 因 
此 ， 如 果 所 有 特征 值 都 非 零 ， 则 4 是 满 秩 。 然 而 ， 如 果 4 的 任何 一 个 特征 值 为 零 ， 则 4 秩 亏 损 。 


7.7 对 称 特征 值 问 题 的 神经 网 络 方法 


最 早 的 解 对 称 特征 值 问题 的 神经 网 络 方法 可 以 在 Wang 和 Mendelf4] 的 论文 中 找到 。 这 个 领 
域 的 其 他 工作 可 以 在 {6, 19] 中 找到 。 这 里 采用 的 神经 计算 方法 与 前 一 节 所 述 的 舒 尔 分 解 结构 神 
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经 网 络 很 相似 。 就 是 说 ， 如 图 7-10 所 示 的 对 称 特 征 值 问题 的 结构 神经 网 络 与 如 图 7-9 所 示 用 于 
舒 尔 分 解 的 网 络 有 相同 的 形式 。 实 际 上 ， 对 于 乞 阵 4 © RW RRS, RARER (BAT = 
A), Fast (7-88) 可 得 

A = QRQ" =A" =QR'Q' = R = R' (7-117) 





图 7-10 通过 误差 反 向 传播 训练 的 用 于 解决 对 称 特征 值 问题 的 结构 化 神经 网 络 方 框图 
由 式 (7-117) 可 以 推断 矩阵 R 不 能 是 上 三 角 和 矩阵 ， 而 必须 是 对 角 线 上 为 4 的 特征 值 的 对 
角 和 矩阵 ， 并 且 Q 的 列 向 量 为 4 的 相关 特征 向 量 。 因 此 ， 对 于 对 称 和 矩阵 4,，R = A, 8 =V， 并 且 4 
的 舒 尔 分 解 变 成 4 = VAV, REER (7-116) 给 出 的 特征 值 分 解 。 详 细 的 神经 网 络 体系 结 
构 如 图 7-11 所 示 。 





图 7-11 解决 对 称 特征 值 问题 的 详细 神经 网 络 体系 结构 
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因此 ， 由 上 述 讨论 ， 可 以 期 望 对 称 特征 值 问题 中 的 V 和 A 学 习 规 则 与 舒 尔 分 解 中 和 RR 的 学 
习 规则 有 相同 的 基本 形式 。 唯一 的 区 别 就 是 对 和 矩阵 A 的 元 素 的 限制 , 因为 在 对 称 特征 值 问题 中 ， 
A 必须 是 对 角 和 矩阵 。 总 误差 代价 函数 的 形式 与 舒 尔 分 解 神经 计算 方法 中 式 (7-93) 相同 。 因 此 ， 
离散 时 间 学 习 规 则 的 向 量 和 矩阵 形式 如 下 


Vk +1) = V(k) + u{ē(kju" (k) + vêlk)b" (k)) (7-118) 

和 
A(k +1) = A(k) + uV’ (k+ 1)e(k)B' (k) . (7-119) 

其 中 > 0,v>0 (通常 v= 1) ， 其 中 ， 由 图 7-10 中 的 方 框图 

@=Ax-Vu (7-120) 

和 
u= Ab (7-121) 

其 中 

b=V'x (7-122) 

和 
ê=x-Vb (7-123) 


最 好 的 外 部 激励 输入 x 是 随机 向 量 ， 即 零 均值 高 斯 白 噪声 单位 方差 。 式 (7-118) 和 
A (7-119) 中 的 学 习 规 则 的 标量 形式 分 别 如 下 
v,(k +1) = v,(k) + ule, (Ku (k) + ve (kb (k) (7-124) 
和 


n 


Ayj(k +1) = A(R + lS vy (k + Dé, (k) |b, (k) (7-125) 
=| 





其 中 i,j = 1, 2,…, n。 

式 (7-125) 中 的 学 习 规 则 仅 适 用 于 i = j 的 情况 ， 对 于 i 冯 j，A;; = 0， 因 为 4 是 对 角 和 矩阵 。 
基于 舒 尔 分 解 的 结果 ， 确 定 辅助 变量 和 误差 项 的 标量 形式 是 简单 的 。 在 Cichocki 和 Unbehauen 
[6] 中 ， 给 出 了 图 7-10 中 神经 网 络 方 框图 的 一 种 经 济 的 实现 。 注 意 在 图 7-10 中 V 被 两 个 误差 项 的 
计算 所 共享 。 充 分 利用 这 个 事实 ， 设 计 出 一 种 使 用 分 时 (多 路 复 用 ) 技术 的 简单 结构 网 络 。 
这 个 基于 分 时 方法 的 简化 神经 网 络 具 有 由 连接 权 值 矩阵 V 描 述 的 输出 层 计 算 单元 ， 这 些 单元 由 
两 个 计算 渠道 分 时 计算 5 和 6 得 到 。 

最 小 /最 大 特征 值 问题 

常常 需要 求 取 实 对 称 和 矩阵 4 E R (AT =4) 的 极 值 ( 即 最 小 或 最 大 ) 实 特 征 值 和 相应 特征 向 量 。 
找 4 的 最 小 /最 大 特征 值 对 应 于 获取 函数 . 史 (W (Rayleigb 商 [2, 20,21]) HEME. AWE LA 





(7-126) 


其 中 假设 v E R RAAF. K (7-126) 中 的 瑞 利 (Rayleigh) 商 是 能 最 小 化 |l4vu-- 
2vl 的 唯一 数 。 如 果 v 为 4 的 一 个 特征 向 量 ， 那 么 瑞 利 商 .% (就 是 4 的 相应 特征 值 极 值 ， 如 果 
取 + 号 就 是 最 小 特征 值 ， 如 果 取 一 号 就 是 最 大 特征 值 。 

求 取 4 的 最 小 /最 大 特征 值 的 神经 计算 方法 可 以 用 带 约束 的 最 优化 问题 来 表达 


最 小 化 25 Uf Ay, XF i=1,2, e,n (7-127) 
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约束 条 件 是 
(A—ADv, = 0 (7-128) 
和 
vly,—1=0 (7-129) 
总 误差 代价 函数 可 以 用 惩罚 法 (penalty method) [22, 23] 来 表示 
&(v,,A,) = ria +e!e, Lory - n] (7-130) 
其 中 
e; = Au, — Av; (7-131) 


由 标准 特征 值 问题 ，a > 0, 5 > 0 是 惩罚 参数 ，i = 1, 2, …, n。 通 过 最 小 化 式 (7-130) 中 
的 总 误差 代价 函数 ， 可 以 推导 出 求 取 最 小 /最 大 特征 值 和 ,和 相应 特征 向 量 v 的 两 个 学 习 规 则 。 
就 是 说 ， 通 过 使 用 最 速 下 降 梯 度 法 ， 离 散 时 间 学 习 规则 (向 量 和 矩阵 形式 ) 如 下 
A,(k +1) = NK + uv; (Ke; (k) (7-132) 
和 
u.(k +1) = u,(k) - u{zaAv,(k) + Ae,(k) — 1,(ke,(k) + plv? (kv; (k) — 1]u,(k)} (7-133) 
其 中 /> 0， 惩 罚 参数 c > 0, 8 > 0 可 以 用 一 种 独特 的 方式 来 调整 。 然 而 ， 还 是 建议 在 神经 
网 络 训练 过 程 中 逐渐 减 小 惩罚 参数 a (特别 是 在 训练 的 最 后 阶段 ) [6]。 再 说 一 次 ， 如 果 取 + 号 
对 应 的 是 最 小 特征 值 ， 那 么 取 一 号 就 产生 最 大 特征 值 。 式 (7-133) 中 求 特征 向 量 的 离散 时 间 
学 习 规 则 的 标量 形式 可 以 写作 


n n 


v lk +1)= Uj (k)- uaa ApUn (k) + > ainen(k) 


(7-134) 
BA A A 
其 中 j = 1, 2, …, n。 
例 7.2 求 取 下 面 矩 阵 的 特征 值 和 特征 向 量 
1 1 1 -1 
2 
1-5 1.3 
4-| 1 7 4 (7-135) 
22° 2 
a -3 1 Ls 
2 
通过 使 用 MATLAB 中 的 eig 国 数 可 以 获得 4 的 特征 值 和 特征 向 量 如 下 〈 取 四 位 小 数 ) : 
A” = diag[ 一 3.9408 — 2.5376 1.6005 一 8.1221] (7-136) 


0.1245 -0.3524 -0.9275 -0.0097 
yu -0.1840 0.6436 -0.2620 -0.6952 (7-137 
~ 10.9734 -0.1285 -0.0836 0.1702 -137) 


-0.0558 -0.6671 0.2532 -0.6983 
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用 本 节 介 绍 的 神经 网 络 方法 ， 设 学 习 率 4 = 0.00255, v= 1, Vik = 0) = A(k=0) =7, t65 000 
步 训 练 ， 特 征 值 和 特征 向 量 为 
A~" = diag|1.6005, — 3.9408, — 8.1221, — 2.5376] (7-138) 
-0.9275 0.1245 -0.0097 -0.3524 
-0.2620 -0.1840 -0.6952 0.6436 
“|-0.0836 -0.9734 0.1702 -0.1285 (7-139) 
0.2532 -0.0558 -0.6983 -0.6671 


用 神经 网 络 方法 计算 特征 值 和 特征 向 量 的 误差 可 以 通过 计算 矩阵 4 与 式 (7-116) 给 出 的 4 的 特 
征 值 分 解 VYAV’ 的 差 值 的 模 来 量化 。 可 以 这 样 计算 
i = ||A—VAV'||, = 1.0969 x 10 (7-140) 
其 中 矩阵 的 | 上. ||, 范 数 是 4 -- YAYVY7 的 最 大 奇异 值 。 这 些 结果 与 MATLAB 的 结果 是 一 样 的 ， 
除了 特征 值 /特征 向 量 的 顺序 和 一 些 特征 向 量 符号 相反 。 图 7-12 显 示 了 计算 特征 值 和 特征 向 量 
的 神经 网 络 学 习 过 程 中 均 方 误差 的 变化 。 


105 


NN 


10° 


i 
= 10-5 
EN 
F 
10-10 
10735 
10° 10! 10? 103 104 105 


训练 回合 数 
图 7-12 在 训练 期 间 计算 例 7.2 中 对 称 和 矩阵 的 特征 值 和 特征 向 量 的 均 方 误差 


例 7.3 ”如 果 仅 想 计算 4 的 最 大 特征 值 (和 相应 的 特征 向 量 ) ， 可 以 使 用 本 节 推 导 的 神经 计 
算 方 法 。 和 欲求 如 下 矩阵 的 最 大 特征 值 和 特征 向 量 
-loss oas] 


0.55 0.45 (7-141) 


使 用 MATLAB 计 算 所 得 的 特征 值 和 特征 向 量 如 下 


(7-142) 


a [07071 0.7071 
A™ = diag[ 一 0.1, 1] V -| | 


-0.7071 0.7071 


为 了 寻找 式 (7-141) 中 和 矩阵 的 最 大 特征 值 和 特征 向 量 ， 神 经 网 络 的 训练 过 程 按 如 下 方式 
进行 ，(1) Faw = 2x 10- 和 和 a = B = 0.5 进 行 3000 个 训练 回合 ， 然 后 使 用 来 自 训练 过 程 第 一 部 
分 的 突 触 权 值 ， (2) FA = 2x 10%, B= 0.5 进 行 3000 个 附加 的 训练 回合 ， 开 始 时 用 @ = 0.5, 
a 每 个 训练 步 碱 少 0.1%。 神 经 网 络 训练 过 程 的 第 二 部 分 多 重复 8 次 ， 即 用 来 自前 面 训练 过 程 的 
最 终 突 触 权 值 作为 下 一 阶段 的 初始 权 值 。 因 此 ， 在 总 共 50 000 步 训练 后 ， 神 经 网 络 收敛 到 4 的 


w 
一 
© 
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最 大 特征 值 如 下 
ANN = 1.0000 (7-143) 
相应 的 特征 向 量 是 
vAN, =[0.7071,0.7071]" (7-144) 
这 与 式 (7-141) 和 式 (7-142) 中 给 出 的 MATLAB 的 结果 是 相符 的 。 
7.8 奇异 值 分 解 


矩阵 的 奇异 值 分 解 (SVD) [2, 8, 9, 17, 18, 20, 24] (参见 A.2.14 节 ) 是 最 重要 的 矩阵 分 解 
方法 之 一 。 它 在 信号 处 理 、 控 制 理 论 、 数 据 的 参数 建 模 等 方面 都 有 许多 应 用 ， 特 别 是 解决 大 
多 数 线性 最 小 二 乘 问题 的 上 佳 方法 ， 尤 其 是 对 于 病态 条 件 矩 阵 [2]。 如 同 在 A.2.14 节 所 解释 的 ， 
SVD 的 基本 目的 是 把 一 个 矩阵 4 E R"*" 分 解 成 两 个 正 交 的 矩阵 UV E R” (UTU = UU" = 站 和 YE 
R "(VTV = VV = 7 了) 和 一 个 伪 对 角 和 矩阵 5$ E R”, HIS = pseudodiag (0), On …, 0,)， 其 中 
p= min(m, n), ERKKO > o> … 之 oo, 之 0 称 为 4 的 奇异 值 。 因 此 4 可 以 写作 

A = USV" (7-145) 
相反 ，S 可 写作 

S = UTAV (7-146) 
AMR, MoA) =r (这 也 是 最 小 奇异 值 的 索引 )， 则 4 的 SVD 可 以 写作 


A=USV' =U,S,V’ = pour (7-147) 


Fh, w(i = 1, 2, …, 门 是 的 前 r 列 ，w(i = 1 2, … 门 是 Y 的 前 r 列 。oxi = 1, 2，… 四 是 伪 对 角 
矩阵 $ 的 前 r 个 奇异 值 (所 有 其 余 奇异 值 都 是 零 ) Be, U, ER”, VER MS. ER, 

我 们 的 目标 是 用 神经 计算 方法 计算 两 个 正 交 和 矩阵 U 和 V 以 及 伪 对 角 矩 阵 S[1, 4, 6, 25, 26], 
不 失 一 般 性 ， 假 设 m 宇 n, U ER” (UU =D, VER” (VTV = VV" = I), S =diaglo,, oz，… ， 
olER”, Hb Hike, > o>- >00, >R. RAH ATL 7-13 Baa 
构 神经 网 络 的 方 框图 看 出 。 总 误差 代价 国 数 定义 为 


2an 1 Viga Voy ~ 
5(@,8,2) = Ne Ib +z Hell +p lett (7-148) 


其 中 vi > 0, v> 0 是 惩罚 参数 ， 通 常 ，0 < viv. <10. BME (7-148) PRAA LE 
阵 4 因 子 分 解 成 三 个 矩阵 UV, S 和 V。 最 小 化 式 (7-148) 中 的 第 二 项 确保 矩阵 VV (其 列 为 右 奇 异 
向 量 ) 是 正 交 的 ， 最 小 化 第 三 项 得 到 一 个 正 交 撼 阵 忆 (其 列 为 左 奇 异 向 量 ) 。 由 最 速 下 降 梯度 
最 优化 方法 推出 的 V, S 和 U 的 三 个 离散 时 间 学 习 规则 的 向 量 矩 阵 形式 是 


V(k +1) = V(k)- VyE (6,6) (7-149) 
S(k +1) = S(k)- VF (2,6,2) (7-150) 
U(k +1) =U(k) ~ Vy @, 6,2) (7-151) 


其 中 心 > 0, m > 0 和 1 > 0 是 三 个 独立 的 学 习 率 参数 。 由 图 7-13 中 的 方 框图 ， 误 差 向 量 的 三 个 
表达 式 写 作 
@=g~- f= Ax-U r =Ax-US b = Ax-USV'x 
Sb vx (7-152) 
=(A-USV')x, @ER™') 
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=x-V b =x-W' x=(1 
性 一 


nxn 


-VWV")x (êER™') (7-153) 


vy 


č= d - y =r-U' f =r-U'Ur=il,,,-U'U) r 
y 一 一 


= 一 一 
” Uv/ Ur sv'y 
=(I,,, -U7U)SV'x (č ER”) (7-154) 


因此 ， 从 式 (7-152), 式 (7-153) 和 式 (7-154) 可 以 看 出 ， 对 于 一 个 合适 的 外 部 激励 输 
Ax E 中 ， 当 1 的 列 都 收敛 到 4 的 左 奇异 向 量 ，S 的 对 角 线 元 素 收 敛 到 4 的 奇异 值 ， 且 YY 的 列 
都 收敛 到 4 的 右 奇异 向 量 的 时 候 ， 三 个 误差 向 量 将 收敛 到 零 ， 并 且 神 经 网 络 也 被 正确 地 训练 。 

为 了 推导 出 式 (7-149), 式 《7-150) 和 式 (7-151) 中 的 三 个 离散 时 间 学 习 规 则 ， 分 别 计 
算 三 个 矩阵 V, S 和 U， 必 须 求 出 三 个 梯度 VEE, 8, č), VEE, êE) VEEE. A SFE 
梯度 Vvg(z,26,6) ， 可 以 把 式 (7-148) 中 的 总 误差 代价 函数 写成 


~ 1 Vaan Vy y~ 1 v v 
&(@,é,e)=—lleW + hel? + We B= g +e’ eT 
(¢,¢,e)=— lle ll, 5 245 2-5 e ee ee 
= lA" -x VS UT (Ax - USV" x) 
Vi ut T T T Vo pT T T 
+—(x -x VV Xx -VV r+t er -f UXr-U' f) 
2 f š 2 —y l (7-155) 
= S (x ATAx - x" ATUSV’ x- x VS'U' Ax +x'VS'U'USV' x) 


+ 了 Crx -2x VV" x +x" VV YY x) + 了 rr -riU f - f'Ur+ f"UU' f) 


通过 使 用 式 (7-7) 和 式 (7-8) 中 给 出 的 标量 对 和 矩阵 微分 的 一 般 结果 与 合适 的 链 式 规则 ， 
可 以 计算 式 (7-155) 对 矩阵 VY 的 梯度 。 结 果 是 
VE = 2 FEE L ag US- v (êV + 6b") (7-156) 
由 图 7-13 中 的 方 框图 ， 其 中 
b=V'x (7-157) 
因此 ， 由 式 (7-149) 以 及 式 (7-156) 中 的 梯度 结果 ，YV 的 离散 时 间 学 习 规 则 的 向 量 和 矩阵 
形式 是 
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Vik +1) = V(k) + u {xE OUS) + v lelke (KYV k) + e(k)B" (ON (7-158) 
其 中 
e=Ax-Ur (7-159) 
ê=x-Vb (7-160) 
和 
r=Sb (7-161) 


网 络 的 外 部 激励 输入 x 应 该 使 用 如 前 所 述 的 线性 无 关 双 极 性 向 量 组 。 
下 一 步 可 以 计算 总 误差 代价 函数 对 矩阵 5 的 梯度 ， 这 个 梯度 是 式 《7-150) 的 学 习 规则 所 . 
需要 的 。 现 在 式 (7-148) 中 的 总 误差 代价 函数 可 以 写作 


BF(5,66)= —(x' A’ -x'VS'U' (Ax -USV' x) 
zT E 


Viet _ pT yT Vo oT T T 
+7 & =} V JE 人 “J UXr-U H) 


é 


= STAT Ax ~ x’ ATUSV' x ~x'VS'U' Ax + x'VS'U'USV' x) 
Vit T TyT TyT 
一 -x Vb-b V b TY Vb 
+ 2 (x x-x x+ ) (7-162) 
+ rr UV f- f'Ur+ Uh) 
式 (7-162) 对 S$ 的 梯度 为 
VEe ELD = -U"ēb" (7-163) 


因此 ， 由 式 (7-150) 以 及 式 (7-163) "PADRE RESESR , SHIR Bh E A A e Ba 
形式 是 
S(k +1) = S(k) + U7 (ke (kB? (k) (7-164) 
这 个 式 子 仅 适用 于 调整 $ 的 对 角 线 元 素 。S 中 的 所 有 其 他 元 素 都 为 零 ， 因 为 5 应 该 是 一 个 对 
角 和 矩阵 。 
最 后 ， 可 以 计算 总 误差 代价 函数 对 和 矩阵 的 梯度 。 式 (7-148) 中 的 总 误差 代价 函数 现在 
可 以 写作 


EE(2,6,6) = TOEN -x "VS UT Ax - USV" x) 
a e 
+ Yi (xT 一 BV" Xx — Vb)+ (xT ys? 一 x'VS'UTU\SV' x 一 U'USV'x) 
2 ar H 2 a H 


= T(x" AT Ax -x ATUSV' x- x' VS U" Ax + x'VS'U'USV' x) 
Vit T TyT TyT 
nan -x’Vb-b'V'x+b'V'Vb 

+ x x V x+ ) (7-165) 


+ a VS" SV" ~2x™VS™UUSV' x + x'VSTUTUU USV" x) 


Ww 
w 
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式 (7-165) 对 0 的 梯度 是 


V, (E,ê, č) = areta =-ér’ —v,(Uér’ + fe’) (7-166) 
其 中 
@=r-U'f (7-167) 
和 
f=Ur 


因此 ， 由 式 (7-151) ARA (7-166) ROBE BEER SR, URIB RE E E A SLU a ak 
形式 是 


U(k +1) = UR + u, {Ek)r" (k) + v AU (k) + fe" (AN) (7-168) 
学 习 规则 的 标量 形式 是 
{ m 
vy(k +1) =v, (k) +H, |5 lb BR, wp | wh 
=i (7-169) 
+v koš ê, (Kv (Kk) + acoso) 
其 中 i,j = 1,2,…, nn， 
ok +1)=0,(k)+ u, [da Oujo] (7-170) 
=| 
其 中 i = 1, 2,…,n， 并 且 
uy (kK +1) = uk + u (€, (k)r;(k) 
n \ (7-171) 
| RA A 
其 中 gq = 1, 2,…, m，j = 1, 2, …, 由。 三 个 误差 项 也 可 以 写成 标量 形式 
z, = $ ayx,- SMa q=1,2,---,m (7-172) 
é =x, -Pub i=1,2,---,n (7-173) 
čern- Suh, i=1,2,n (7-174 
r; > hilh ) 
其 中 
r= ob, i=1,2,-,n (7-175) 
b, = ave f= 12,50 (7-176) 
fa = S tyn qg =1,2,…,m (7-177) 


和 前 面 的 解决 特定 矩阵 代数 问题 的 神经 计算 方法 一 样 ， 对 于 4 包含 随时 间 缓 慢 变化 的 元 素 
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的 情况 ，SVD 神 经 网 络 最 适合 。 在 这 种 情况 下 ， 网 络 的 初始 权 值 和 整个 网 络 都 将 由 与 4 的 SVD 
相对 应 的 值 确定 ， 这 些 SVD 值 是 由 诸如 LAPACK[27] 等 强健 壮 性 数值 算法 确定 的 。 在 需要 的 
时 候 ， 神 经 网 络 会 更 新 适当 的 突 触 连接 权 值 以 反映 和 矩阵 4 的 元 素 的 相应 变化 。 

前 面 的 结构 神经 网 络 是 一 种 不 唯一 的 常规 体系 结构 。 根 据 4 的 特殊 属性 ， 比 如 ， 是 否 是 方 
阵 ， 是 否 对 称 等 等 ， 可 以 设计 更 加 简化 的 神经 网 络 和 学 习 规 则 。Cichocki 和 Unbehauen[6] 的 书 
中 以 方 框图 的 形式 给 出 了 一 些 特殊 的 SVD 体 系 结构 。 

7.9 求解 代数 李 雅 普 诺 夫 方程 的 神经 计算 方法 

代数 李 雅 普 诺 夫 方程 在 很 多 应 用 中 都 扮演 着 非常 重要 的 角色 (参见 A.7.8 节 )， 特 别 是 在 控 
制 理论 中 [28, 29]。 此 方程 是 称 为 西 尔 维 斯 特 (Sylvester) 方程 的 线性 矩阵 方程 的 特殊 形式 。 
西 尔 维 斯 特 方程 如 下 

AX + XB =-C (7-178) 
HBO CR", BER" "ANC CHR", FFA SME EX E R29], ARB =A, HB 
么 CE %i“， 此 时 的 方程 称 作 李 雅 普 诺 夫 方程 ， 如 下 | 

AX +XA™=—C (7-179) 
其 中 ， 当 且 仅 当 X(4) + A(A)40, Wi, f= 1,2, … (参见 A.2.17 节 ) 时 ， 式 (7-179) 有 唯一 


解 。 对 于 式 (7-179) 中 的 李 雅 普 诺 夫 方 程 ， 解 不 E RAC © RAPA BRE IE ES, BD 
X’=X,X>0, HC’=C,C>0, 

神经 计算 方法 可 以 用 来 解 式 (7-179) 中 的 李 雅 普 诺 夫 方 程 [6]。 然 而 ， 当 4 矩阵 中 的 部 分 
(或 全 部 ) 元 素 随 时 间 缓慢 变化 时 ， 用 结构 神经 网 络 解 李 雅 普 诺 夫 方 程 的 真正 优点 才能 看 出 来 。 
在 这 种 情况 下 ， 网 络 的 初始 突 触 权 值 CBD ARX) 可 以 置 成 通过 用 强健 壮 的 数值 方法 解 李 雅 普 诺 
夫 方 程 获 得 的 值 。 图 7-14 展 示 了 解决 代数 矩阵 李 雅 普 诺 夫 方 程 的 结构 神经 网 络 体系 结构 。 由 
方 框图 ， 误 差 项 可 写作 

e=d—y= ~—Cu—AXu—Xz (7-180) 

其 中 
(7-181) 





图 7-14 用 于 代数 矩阵 李 雅 普 诺 夫 方 程 求解 的 结构 化 神经 网 络 体 系 结构 。 使 用 误差 反 
向 传播 训练 这 个 网 络 | 


把 式 (7-181) 代入 式 (7-180)， 得 . 
e=d—y= —Cu—AXu—XA'u =(—C-—AX—XA')u (7-182) 
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因此 ， 由 式 (7-182) 看 出 ， 如 果 给 出 一 个 合适 的 外 部 激励 输入 信号 &， 当 于 逼近 式 (7-179) 
中 李 雅 普 诺 夫 方 程 的 解 时 ， 误 差 向 量 e 将 趋 于 零 。 连 续 时 间 神 经 网 络 学 习 规则 的 基础 是 最 速 下 
降 梯度 法 ， 由 它 推出 了 一 组 矩阵 微分 方程 
xo = -uV ,&(X) (7-183) 
其 中 ,误差 代价 函数 E OERA (7-180) 中 误差 向 量 e 定 义 的 。 这 样 ， 均 方 误差 代价 函数 
可 以 写作 
BO) = TlelB= > (Cu AXu+ Xz)" (Cu + AXu + Xz) 
= 了 CrCrCu +u'C’ AXusu'C' Xz+u'X"A’Cutu'’X' A’ AXu (7-184) 
+u XA’ Xz+z X’ Cutz X' AXu +z" X’ Xz) 
为 了 计算 式 (7-183) 中 的 梯度 ， 即 Vx 多 (X)， 需 要 以 前 用 过 的 式 (7-7) 和 式 (7-8) 中 的 
两 个 一 般 结果 ， 以 及 合适 的 链 式 规则 (参见 A.3.4.2 节 )。 执 行 梯度 计算 得 到 
V,&(X) = A'Cuu’ + A AXuu’ + A’ Xzu" + Cuz” + AXuz" + Xz" 
=A’ (Cu + AXu + Xz)u’ +(Cu+ AXu+Xz)z’ = -A' eu’ -ez7 (7-185) 


因此 ， 由 式 (7-183) 以 及 式 (7-185) 中 的 梯度 ， 可 以 写 出 连续 时 间 学 习 规 则 
dX(t) 


a ul ATe(t)u™ (t) + e(t)z" (0) (7-186) 
其 中 > 0 是 学 习 率 参数 。 学 习 规则 的 离散 时 间 形 式 是 
X(k + 1) = X(k) + uJA elku (k) + e(Dzr] (7-187) 


如 前 所 述 ， 李 雅 普 诺 夫 方 程 的 解 * 是 对 称 的 。 然 而 ,在 式 (7-187) 中 ， 方 程 右边 的 第 二 
项 是 不 对 称 的 。 这 倒是 不 会 影响 学 习 规则 计算 出 式 (7-179) 的 半 正 定 对 称 解 。 然 而 ， 相 比 每 
一 步 训练 都 强制 确保 对 称 性 的 式 (7-187) 的 修改 版 本 ， 这 种 形式 的 学 习 规则 收敛 得 较 慢 。 有 
两 种 实施 强制 对 称 性 的 不 同方 法 ， 相 比 式 (7-187) 它们 需要 相同 数量 的 附加 运算 。 第 一 种 修 
改 方法 使 用 上 面 的 式 〈7-187) ， 然 后 每 步 训练 执行 一 个 附加 运算 步 又 来 强制 确保 对 称 性 ， 即 





T 
xasne XEHD+X (k +1) (7-188) 
PAE EE AXC) = A"elkju (kK) + elz (Kk)， 然 后 把 式 (7-187) 的 学 习 规 则 重 写作 
X(k+1)= X(k)+ STAX) + AX" (k)] (7-189) 


对 于 式 (7-187) 的 学 习 规 则 ， 采 用 式 (7-188) 或 式 (7-189) 中 的 方法 将 导致 更 快 的 收 
KEI HEX 
A (7-187) 中 学 习 规则 的 标量 形式 可 写作 


x,(k +1) = x;(k)+ ule; (k)z;(k)+ D> ape, (Kk), (k)) (7-190) 


其 中 i,j=1,2,…,n, 并 且 


e; =~ Cath, -S av,- $ xaz, (7-191) 
= =i z , 
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其 中 


v, 一 arm (7-192) 


z= S, anm (7-193) 


其 中 i = 1,2, …, n。 可 以 修改 方程 (7-190) 借助 于 对 称 性 来 得 到 更 快 的 收敛 。 修 改 后 的 学 习 
规则 为 


Xk+1) = x,(k)+ te(bz (k) +e, (k)z;(k) 


n n (7-194) 
"S a„e,(k)ju;(k) + 5 ape, (k)ju;(k)} 
= =i 


其 中 i, j=1,2,--,n, 
在 Cichocki 和 Unbehauen[6] 中 ， 外 部 激励 信号 采用 正弦 信号 ， 即 w(?) = sin(1woD) 其 中 1 = 1, 
2, …, n。 然 而 ， 线 性 无 关 双 极 性 向 量 集 是 更 好 的 选择 ， 因 为 通常 可 以 获得 收敛 速度 的 提高 。 


7.10 求解 代数 里 卡 蒂 方程 的 神经 计算 方法 


代数 矩阵 里 卡 蒂 (Riccati) 方程 在 最 优 控制 和 最 优 估 计 理 论 中 都 扮演 重要 的 角色 [28, 29], 

此 方程 的 标准 形式 为 
ATX +XA-—XRX+Q=0 (7-195) 

这 是 非 线 性 矩阵 方程 ， 因 为 左边 第 三 项 是 非 线 性 的 。 给 定 4 ER”, RER R>0,R=R ) 
#10 ER'~"(Q > 0, 0 = 0 7)， 寻 找 式 (7-195) WRX E R (X>0,X =X"), 

代数 矩阵 里 卡 蒂 方 程 的 结构 神经 网 络 解法 最 早 是 由 Ham 和 Collins[30, 31] 提 出 的 。 图 7-15 
以 方 框图 形式 显示 了 解决 代数 里 卡 蒂 方 程 的 结构 化 神经 网 络 的 体系 结构 。 由 方 框图 可 写 出 误 
差 向 量 e 如 下 





图 7-15 用 于 代数 矩阵 里 卡 蒂 方 程 求解 的 结构 化 网 络 。 使 用 误差 反 向 传播 训练 这 个 网 络 
e=b—y = XRv—A'Xz-— XAz—Qz (7-196) 
其 中 
v= Xz (7-197) 
把 式 (7-197) RAA (7-196), Bl 


tad 
oo 
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e = (XRX—A'X— XA— QO) (7-198) 
因此 ， 由 式 (7-198) 可 见 ， 对 于 合适 的 外 部 激励 信号 z， 当 天 逼近 式 (7-195) 给 出 的 里 
卡 蒂 方程 的 解 时 ， 误 差 向 量 e 将 趋 于 零 。 通 过 利用 最 速 下 降 最 优化 方法 和 把 连续 时 间 学 习 规则 
定义 成 如 下 一 组 矩阵 微分 方程 ， 可 以 设计 一 个 训练 神经 网 络 的 学 习 规 则 


ae = -uV F(X) (7-199) 
其 中 均 方 误差 代价 函数 多 (X)， 定 义 成 
&(X)= L lle 皮 (7-200) 


把 式 (7-196) 代入 式 (7-200), 43] 
&(X)= L'R X" XR v R' X’ A’ Xz- v RX XAz- {vV R' X’ Qz 
-z X’ AXRv + z' X’ AA Xz+2'X'AXAz+2z'X'AQz 
-z'A' X XRv+z'A'X'A'Xz+2'A' X'XAz+2z'A'X'Qz 
-z’Q'’ XRv+ z'Q' A’ Xz +z’ Q’ XAz+z'Q'Qz) 
为 了 计算 式 (7-199) 中 的 梯度 ， 即 Vx 多 (X)， 必 须 使 用 式 (7-7) 和 式 (7-8) 给 出 的 一 般 
结果 ， 和 合适 的 链 式 规则 (参见 A.3.4.2 节 )。 计 算式 (7-201) 对 XX 的 梯度 ， 得 到 
V ,&(X) =[XRu- A" Xz - XAz -OQz]v R" 
e—a 


(7-201) 


-[XRv- A’ Xz - XAz-Qz]z' A" 
——— 
e (7-202) 
-A[XRv - A’ Xz - XAz - Qz)}z" 
一 


=ev' R-ez' A’ -4ez7 


把 式 (7-202) 中 的 结果 代入 式 〈7-199) ， 得 到 连续 时 间 学 习 规则 如 下 
dX(t) 


a ulAe(t)z’ (t) + e(t)z’ (DA -eltu (OR) (7-203) 


其 中 > 0 是 学 习 率 参数 。 学 习 规则 的 离散 时 间 形 式 是 

X(k +1) = X(k) + wlAe(k)z"(k) + e(k)z (KAT — elk) YAR] (7-204) 
其 中 是 离散 时 间 索 引 ， 即 k = 0, 1, 2…。 和 解 李 雅 普 诺 夫 方 程 的 神经 计算 方法 一 样 ， 
A (7-204) 中 的 更 新 项 ， 即 
AX(k) = Ae(k)z"(k) + elk)z™(k)A" — elk) VOR (7-205) 
是 不 对 称 的 ， 尽 管 如 此 ， 即 使 式 (7-205) 中 的 AX(h) 不 对 称 ， 式 (7-204) 中 的 学 习 规则 仍然 
能 收敛 到 半 正 定 对 称 解 。 然 而 ， 相 对 于 每 一 步 训练 都 强制 确保 对 称 性 的 式 (7-204) 的 修改 版 
本 ， 这 种 形式 的 学 习 规则 收敛 得 较 慢 。 有 两 种 实施 强制 对 称 性 的 不 同方 法 ， 相 比 式 〈7 - 204), 
它们 需要 相同 数量 的 附加 运算 。 第 一 种 修改 方法 使 用 上 面 的 式 〈7-204) ， 然 后 每 步 训 练 执行 
一 个 附加 运算 来 强制 确保 对 称 性 ， 即 


u 
w 
© 
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X(k+1)+ X’ (k+1) 
2 


第 二 种 方法 是 使 用 式 (7-205) 中 的 更 新 表达 式 来 重 写 式 (7-204) 中 的 学 习 规则 如 下 


X(k+1)- (7-206) 
X (k +1) = X (K) + STAX (K) + AX” CO)] (7-207) 


相 比 式 (7-204) 的 学 习 规 则 ， 采 用 式 (7-206) RA (7-207) 中 的 方法 将 更 快 地 收敛 
HX. 
学 习 规 则 的 标量 形式 〈 带 有 合适 的 项 强制 确保 对 称 性 ) 如 下 


n 


> Bink wb (k)+ op eas] 
rao|S 20a | + [esp (7-208) 
=] ~ 


-0 Zg - » nuole, wh 
= =! 


x(k +1) = +s 





其 中 
e,(k) = b Xin Ky pnw - > aul ib 
=] =| 
-JS Xa (kJa, ko 一 $ ta] 


v= Ya (7-210) 
=] 


(7-209) 


其 中 i,j = 1 2, …, n。 外 部 激励 向 量 输 入 信号 z 应 该 采用 n 个 线性 无 关 双 极 值 向 量 的 集合 (如 前 
所 述 ) 。 图 7-16 显 示 了 解 代数 矩阵 里 卡 蒂 方 程 的 多 层 神经 网 络 体 系 结构 。 这 个 网 络 用 误差 反 向 
传播 法 来 训练 。 

例 7.4 ”该 例子 演示 了 神经 计算 方法 在 如 下 条 件 下 解 式 (7-195) 中 代数 和 矩阵 里 卡带 方程 的 
能 力 : 


0 1 0 10 0 10 0° 0 
A=!0 0 1 Q=|0 025 0 | R=|0 3.3333 0 (7-211) 
-6 -ll -6 0 0 05 0 0 14.2857 




















MATLAB 控 制 系统 工 具 箱 [32] 的 1qr2 函 数 首先 用 来 解 稳 态 代数 矩阵 里 卡 蒂 方 程 。1qr2 
函数 用 舒 尔 分 解 方法 解决 线性 二 次 调节 器 问题 。 因 此 ， 这 个 函数 以 矩阵 4, OR 和 8B 为 输入 ， 
Sit R= R-' (如 上 所 述 )， 而 矩阵 R 由 BR-'87 内 部 计算 求 得 B = 1,、，( 单 位 矩阵 )。 在 
MATLAB 中 用 舒 尔 分 解 方法 产生 的 里 卡 蒂 方程 的 解 X* 如 下 
0.3324 0.1094 -0.0123 
0.1094 0.3790 -0.0059 
-0.0123 -0.0059 0.0388 


X“ = (7-212) 








v 
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使 用 学 习 率 参数 4 = 0.00275, N = 500 (RN xn = 1 500 步 迭代 ， 其 中 n = 3) ， 并 使 用 初始 
REX = 0) = 0 〈 零 矩阵 ) ， 则 神经 网 络 解 区 "产生 的 结果 与 MATLAB 解 一 样 (只 取 四 位 小 
数 ) WA (7-212) 所 示 。 外 部 激励 输入 信号 采用 7 个 线性 无 关 的 双 极 值 向 量 集 合 。 误 差 问 量 
e 的 三 个 元 素 分 别 被 绘制 在 图 7-17a 中 。 通 过 如 下 这 样 与 用 MATLAB 中 1qr2 函 数 得 到 的 解 相 比 
较 ， 解 里 卡 蒂 方程 的 神经 网 络 计算 方法 的 精确 度 可 以 量化 为 





图 7-16 用 于 求解 代数 矩阵 里 卡 蒂 方 程 的 多 层 神经 网 络 体系 结构 。 元 素 a qr Pi, j = 
1 2, …, n 是 固定 的 ， 而 Xj 是 自 适应 的 ， 其 中 i,j = 1,2,…,n 
|x" — X™||, = 9.5081 x 10°° (7-213) 
现在 来 做 个 比较 ， 使 用 正弦 信号 作为 神经 网 络 的 同一 个 学 习 率 参数 的 外 部 激励 输入 〈 即 
u = 0.00275) ， 并 使 用 与 双 极 性 输入 同样 数量 的 总 训练 步 数 ( 即 NW =N xn = 1500)。 正 弦 输 入 
的 一 般 形 式 以 如 下 的 离散 时 间 形 式 给 出 
z(kT) = sin(klaT) (7-214) 
其 中 1 = 1, 2,3, œ = 500rad/s, T=5X10-*s (采样 周期 ), k=0,1, …, (N' 一 1)。 正 弦 输 入 时 
的 误差 向 量 e 的 三 个 元 素 分 别 绘制 在 图 7-17b 中 。 图 7-17b 显 示 对 于 正弦 输入 ， 神 经 网 络 在 1 500 
步 训练 之 后 仍然 没有 收敛 ， 即 
|x" — X™||, = 0.0371 (7-215) 
Esk mA MHA MAREE 500 步 训练 才能 获得 与 双 极 性 向 量 输入 时 相当 的 精度 水 平 ， 
KX (7-213), 
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0.5 2 
1 
So = 
0 
-0.300 10? 104 “10 102 104 
0.5 1 
0.5 
s 0 S 
0 
~ 0590 10? 104 500 102 104 
0.5 1 
0 0 
-0.300 102 104 “10 10? 104 
迭代 次 数 迭代 次 数 
a) b) 
图 7-17 a) 作为 双 极 向 量 的 外 部 激励 输入 的 神经 网 络 学 习 均 方 误差 ，b) 作为 正弦 信号 的 外 部 
激励 输入 的 神经 网 络 学 习 均 方 误差 
习题 
7.1 对 于 合适 维 数 的 矩阵 4，B 和 C ， 求 证 oa 


(a) ~trace(BAC) - BTC7 


(b) Z traco(BA"C) = CB 


7.2” 写 一 个 电脑 程序 来 实现 在 式 (7-9) PURRE (批量) 形式 给 出 的 神经 网 络 学 习 规则 ， 加 
即 计算 矩阵 擅 逆 的 方法 1， 并 计算 以 下 和 矩阵 的 伪 逆 : 

















-1 2 3 1 2.3 
(a) A=|4 5 6 b) A=|4 5 6 
4 -1 -1 78 9 
-1 2 3 5 ai 
(c) A=| 2 -4 6 (d) A= s a : 
2 -3 17 
2 3 5 -7 


在 每 种 情况 下 根据 式 (7-16) 的 表达 式 绘 出 误差 代价 函数 。 定 义 一 个 终止 训练 过 程 的 停 
止 标 准 。 把 你 的 结果 与 用 MATLAB 中 pinv 函 数 计算 得 到 的 伪 逆 相 比 较 。 

73 ”重复 计算 问题 7.2 (a) 和 “(b)， 用 方法 2 计算 矩阵 的 伪 逆 。 实 现 式 (7-31) 中 给 出 的 神经 y 
网 络 学 习 规则 的 向 量 和 矩阵 (批量 ) 形式 。 使 用 双 极 性 向 量 作为 结构 神经 网 络 的 外 部 激励 
输入 。 在 两 种 情况 下 ， 根 据 式 (7-26) 的 表达 式 绘 出 误差 代价 函数 。 定 义 一 个 终止 训练 
过 程 的 停止 标准 。 重 复 这 个 问题 ， 但 是 如 同 式 (2-36) 那样 使 用 搜索 然后 收敛 调度 来 调 
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整 学 习 率 参数 ， 而 不 是 使 用 一 个 固定 的 学 习 率 参数 。 
使 用 图 7-4 所 示 的 结构 神经 网 络 ， 计 算 下 列 和 矩阵 的 LU 分 解 : 
1 2 -7 00 4 
-2 4 5 3 2 -6 
-1 -1 4 -1 2 -1 


(a) A= (b) A= 














使 用 式 (7-49) 和 式 (7-53) 学 习 规则 的 向 量 和 矩阵 (批量 ) 形式 。 采 用 式 (7-45) 表达 
式 绘 出 误差 代价 函数 来 监视 训练 过 程 ， 并 且 定 义 一 个 终止 训练 过 程 的 停止 标准 。 

使 用 计算 矩阵 QR 因 子 分 解 方法 1 的 结构 神经 网 络 (图 7-6) ， 求 下 面 矩 阵 的 因子 分 解 

1 4 -3 
4 5 2 
5 -3 2 


实现 式 (7-73) 和 式 (7-81) 的 学 习 规则 的 向 量 和 矩阵 形式 。 对 于 两 种 不 同 的 外 部 激励 输 
入 ， 用 总 的 训练 回合 数 与 训练 时 间 相 比较 。 第 一 种 输入 使 用 双 极 性 向 量 来 训练 神经 网 络 。 
第 二 种 输入 使 用 离散 时 间 的 正弦 函数 来 重新 训练 神经 网 络 。 正 弦 输 入 的 离散 时 间 形 式 应 
该 采用 x (AT) = sin(KlwoT)， 其 中 1 = 1, 2, 3, oo =500rad/s, T= 1 x 1071s (采样 周期 ) Fak = 
0, 1,…, (NW 一 1)， 其 中 NN 是 训练 总 回合 数 。 定 义 一 个 终止 训练 过 程 的 停止 标准 。 

图 7-18 以 方 框图 的 形式 显示 了 一 个 计算 矩阵 4 © 中 "的 舒 尔 分 解 的 结构 神经 网 络 (参见 
7.5 节 )。 和 7.5 节 一 样 ， 定 义 两 个 误差 向 量 5- 4x-QRb 和 6=x-Qb， 定 义 总 误差 代价 
函数 多 (2,6)=1/21e ls +v/216P ， 定 义 离散 时 间 学 习 规则 的 向 量 和 矩阵 形式 为 CU + 1) = 
QW — UV 9 & (E, FARK + 1) = RO -UVr E (z,2) 。 通 过 计算 必要 的 梯度 项 Ve E (2,6) 
HV, E (z, 人 ) 来 推导 求 C 和 有 R 的 两 条 学 习 规则 。 

在 7.4 节 提 到 的 计算 矩阵 4 E 路 ”的 
QR 因子 分 解 的 方法 2 中 ， 两 个 误差 
向 量 定义 成 & = Ax 一 Qu 和 € =u- 
Q'y。 基 于 之 前 方法 1 使 用 的 相同 
总 误差 代价 函数 和 学 习 规则 的 最 束 
下 降 梯度 形式 推导 计算 Q 和 RR 的 两 
个 学 习 规则 的 离散 时 间 向 量 矩 阵 形 
式 。 提示: 当 推导 有 的 学 习 规则 时 ， 
在 计算 梯度 前 ， 把 & = Rx 代入 总 误 。 图 7-18 7.5 节 中 用 于 舒 尔 分 解 的 结构 化 神经 网 络 方 框图 
差 代 价 函 数 。 

对 于 图 7-9 (在 图 7-18 中 重复 ) 中 的 方 框图 给 出 的 舒 尔 分 解 结构 神经 网 络 ， 写 一 个 计算 机 
程序 实现 式 (7-96) 和 式 (7-97) 相应 学 习 规则 的 向 量 矩阵 形式 。 设 "= 1， 并 确保 对 R 
和 矩阵 加 上 上 三 角 限 制 。 使 用 双 极 值 向 量 作为 网 络 的 外 部 激励 输入 ， 计 算 下 列 和 矩阵 的 舒 尔 
分 解 〈 即 计算 2 和 R) 


A= 











0.7562 0.3750 -2.3775 -1 -4 0 
(a) A=| 0.4005 1.1252 -0.2738| (b) A=|-4 5 0 
-1.3414 0.7286 -0.3229 0 0 0 














通过 用 式 (7-93) 的 表达 式 绘 出 总 误差 代价 函数 来 监视 训练 过 程 中 的 均 方 误差 ， 并 定义 
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一 个 终止 训练 过 程 的 停止 标准 。 

写 计算 机 程序 实现 式 (7-118) 和 式 (7-119) 给 出 的 计算 对 称 矩 阵 特征 值 和 特征 向 量 的 
结构 神经 网 络 (图 7-11) 学 习 规 则 的 向 量 和 矩阵 形式 。 使 用 高 斯 随机 向 量 作为 网 络 的 外 部 
激励 输入 ， 计 算 下 列 矩 阵 的 特征 值 和 特征 向 量 : 


1 0.5 -1 








A=| 0.5 2 1 b) A ot 4-|[ 7! 
(a) A=| 0. (b) -| | () -| -| 
-1 1 3 
-1.2384 1.1546 -0.4880 0.4191 
1.1546 -0.6638 -0.8822 0.0437 
(d) A= (e) A= 


-0.4880 -0.8822 1.0290 -0.3905 
0.4191 0.0437 -0.3905 -0.1419 


1 -1 1 

-1 1 -1 

| 
把 你 的 结果 与 MATLAB 中 的 特征 值 程序 ， 即 eig 函 数 作 比 较 。 
所 有 的 实 方 阵 4 E WR" 都 可 以 因子 分 解 成 4 = 0H, RH ER EEX = QQ =D), 
H E R'E MERA = H) 半 正定 (8>0) 和 矩阵 。 如 果 A 是 可 逆 的 [p(4) = 站， 则 HH 是 正定 的 
(H > 0)。 这 称 为 4 的 极 分 解 [8]。 
证 明 上 述 陈述 。 
对 于 式 (7-158), X (7-164) 和 式 (7-168) 的 计算 矩阵 奇异 值 分 解 的 结构 神经 网 络 
(图 7-13) ， 写 一 个 计算 机 程序 实现 它 的 学 习 规则 的 向 量 年 阵 形式 。 通 过 计算 下 列 矩 阵 的 
SVD 来 测试 你 的 程序 。 





1 0 0 
-1 2 -1 
0 0 3 


在 Cichocki 和 Unbehauen[6] 中 ， 给 出 了 8 个 计算 方 阵 4 E 路 "的 奇异 值 分 解 的 结构 神经 
网 络 体系 结构 。 其 中 之 一 如 图 7-19 中 的 方 框图 所 示 。 基 于 最 速 下 降 梯 度 法 推导 三 个 计算 
SVD 离 散 时 间 学 习 规 则 ， 使 得 V74 = $SW 成 立 ， 其 中 YY = I 和 UV” = 7。 把 总 误差 代价 
函数 定义 成 与 式 (7-148) 相似 。 ; 

用 图 7-13 (7.845) 中 方 框图 给 出 的 
相同 结构 神经 网 络 来 计算 矩阵 4 E 
”mm 之 n 的 SVD， 定 义 三 个 误差 向 
BAe = (4 一 USVDx, é= -VVN) x 
和 = U-U'U)r, pU ER" 
(UU = D, V E R” (VV =D, S = 
diag[o,, On, *…, d,JE R”, EMER 
三 个 误差 向 量 的 表达 式 ， 式 (7-148) 
给 出 的 总 误差 代价 函数 和 分 别 由 式 
(7-149)、 式 (7-150) 和 式 (7-151) 
给 出 的 求 V, S 和 U0 的 三 个 学 习 规 则 的 
离散 时 间 向 量 矩 阵 形式 ， 推导 三 个 图 7-19 计算 方 阵 SVD 的 另 一 个 结构 化 神经 网 络 体系 结构 
新 的 学 习 规则 。 把 这 些 V, S 和 0U 的 新 的 学 习 规则 与 7.8 节 推导 的 式 (7-158), K (7-164) 
和 式 (7-168) 中 的 学 习 规 则 分 别 比较 。 











a 
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对 于 问题 7.10 讨 论 的 矩阵 的 极 分 解 ， 推 导 使 用 结构 神经 网 络 方法 计算 Q 和 且 的 离散 时 间 
学 习 规 则 (用 向 量 和 矩阵 形式 )。 计 算 @ 和 五 的 学 习 规 则 应 基于 最 速 下 降 梯 度 法 ， 且 应 具 
有 一 般 的 离散 时 间 形 式 Q(k + 1) = Qk- uVo & (8,6) PIH + 1) = H(A — uV E (2,6), 
其 中 z 和 6 是 合理 定义 的 误差 向 量 。 通 过 构造 含有 外 部 激励 输入 和 两 个 误差 向 量 z 和 6 
的 合理 方 框图 来 设计 结构 神经 网 络 。 应 该 使 用 的 总 误差 代价 函数 是 EE, ê) = EEH), 
.6(Q,H)]=1/2ilelz +v/21êl 。 通 过 一 系列 计算 机 仿真 来 确定 一 组 将 产生 最 好 的 收敛 
的 外 部 激励 信号 。 尝 试 二 值 向 量 ， 双 极 值 向 量 ， 正 弦 输 入 信号 和 高 斯 白 噪声 。 通 过 寻 
找 下 列 矩 阵 的 极 分 解 来 测试 你 的 计算 机 程序 。 


123 0 1 0 
(a) A=|5 6 7 (b) A=|0 0 1 
7 8 9 -6 -11 -6 














提示 : 此 结构 神经 网 络 应 该 是 7.4 节 中 方法 1 的 QR 因子 分 解 网 络 的 修改 版 本 。 

设计 一 个 能 对 对 称 和 矩阵 4 E NR” (AT = A) 进行 下 列 因子 分 解 的 结构 神经 网 络 

(a) A=QTQ’ (b) A=LDL™ 

其 中 Q © RN EEZ, TER AMR Ae, Le Re P= eh, DE 
路 " "是 对 角 和 矩阵 。 用 问题 7.9 (a), (c), (e) 中 的 矩阵 来 测试 你 的 计算 机 程序 (使 用 学 
>] FLU YS H EERE). 

写 一 个 计算 机 程序 实现 7.9 节 中 讨论 的 解 李 雅 普 诺 夫 方 程 的 学 习 规 则 的 离散 时 间 向 量 矩 
阵 形式 。 用 下 列 和 矩阵 测试 你 的 计算 机 程序 : 

0 1 0 210 
0 0 1l, 111 
-1 -2 -2 011 
123 
6 5 4 
708 


使 用 例 7.4 描 述 的 双 极 性 向 量 和 正弦 函数 作为 网 络 的 外 部 激励 输入 ， 并 比较 两 组 结 采 。 


写 一 个 计算 机 程序 实现 7.10 节 中 讨论 的 解 里 卡 蒂 方 程 的 学 习 规 则 的 离散 时 间 向 量 和 矩阵 形 
式 。 用 下 列 矩 阵 测试 你 的 计算 机 程序 ; 


(a) A= C= 














(b) A= , C= 


























0 1 0 20 0 

A=|0 0 1| Q=|0 025 0 
-6 -11 -6 00 05 
010 0 7° 

R=|0 03 0 
0 0 007 








把 结果 与 解决 线性 二 次 正则 问题 的 MATLAB 控 制 系统 工具 箱 函 数 1qr2 的 结果 比较 。 这 
个 函数 用 舒 尔 分 解 来 解 里 卡 蒂 方 程 。 如 例 7.4 中 所 讨论 的 ， 必 须 向 MATLAB 函 数 1qr2 
提供 矩阵 B 和 R。 可 以 在 MATLAB 函 数 1qr2 中 把 加 权 和 矩阵 R 定 义 成 中 ， 然 后 用 两 种 方 
法 比较 结果 ， 在 lqr2 MATLAB 函 数 中 令 B =1,.,, R = R'。 使 用 双 极 性 向 量 作 为 网 
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络 的 外 部 激励 输入 。 还 使 用 例 7.4 所 述 的 正弦 函数 作为 外 部 激励 输入 ， 比 较 两 个 结果 。 
重复 问题 7.17， 要 求 计算 机 程序 每 次 计算 里 卡 蒂 方程 解 X 的 一 列 。 

在 数字 控制 理论 中 ， 离 散 时 间 李 雅 普 诺 夫 方程 以 @XE@ + C = 于 形 式 给 出 ， 其 中 和 矩阵 更 E 
R, CER Oe, XER 是 方程 的 待 求解 。 设 计 一 个 合适 的 结构 神经 网 络 来 计算 
离散 时 间 李 雅 普 诺 夫 方 程 的 解 。 确 定 网 络 应 使 用 的 最 好 的 外 部 激励 输入 信号 。 

设计 一 个 结构 神经 网 络 来 解 7.9 节 中 给 出 的 西 尔 维 斯 特 方程 ， 即 4X + XB = 一 C， 其 中 假 
ZEBA ER”, BER" CER", JRX ER” 

对 于 有 相 异 特征 值 ( 即 没有 重复 的 特征 值 ) EAER”, FEARR (HARE 
应 特征 向 量 组 成 ) 能 够 把 4 对 角 化 (参见 7.6 节 )。 然 而 ， 如 果 A4 有 重复 的 特征 值 ，4 就 不 
与 对 角 算 阵 相似 ， 除 非 4 有 一 个 独立 的 特征 向 量 完全 集合 。 如 果 这 些 特征 向 量 不 独立 ， 
则 A 称 为 亏损 的 《defective)[ 习 。 对 这 些 第 阵 ， 广 义 特征 值 问题 用 于 确定 方程 4v; = A,B, 
i = 1, 2, …, n 的 非 平凡 解 。 除 了 4 以 外 ， 算 阵 B E RRE, A, E RET HEA, y © 
Wh"*! 是 相应 的 广 叉 右 特 征 向 量 ， 其 中 i = 1, 2, …, n。 很 容易 看 出 和 A 是 特征 方程 det(4 — AB) 
= 0 的 根 。( 注 意 ; 如 果 B = 、,， 则 特征 方程 是 求解 标准 特征 值 问题 。) 矩阵 4 — ABERE 
MR (matrix pencil) [20]。QZ 算 法 [2, 20] 是 解决 广义 特征 值 问题 的 标准 方法 。 与 有 相 蜡 特 
征 值 的 情况 类 似 ， 广 义 特征 值 和 特征 向 量 满足 因子 分 解 4Y = BVA， 其 中 A= diaglA,, A, …， 
Anls V= [Uj Ux 7) U]。 设 计 一 个 神经 网 络 解决 广义 特征 值 问 题 ， 即 计算 4 和 ~w。 
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第 8 章 使 用 神经 网 络 求解 线性 代数 方程 组 


8.1 概述 


在 科学 与 工程 中 遇 到 的 许多 问题 都 要 求解 线性 代数 方程 组 ， 比 如 ， 在 信号 处 理 和 机 器 人 
学 问题 上 。 原 则 上 讲 ， 求 解 方程 组 与 矩阵 求 逆 (或 伪 逆 ) 是 等 效 的 (参考 A.2.7 节 )。 本 章 打 
算 扩展 第 7 章 的 概念 以 求解 方程 组 ， 主 要 兴趣 在 于 实时 和 在 线 处 理 策略 的 研究 上 。 并 不 打算 将 
本 章 中 提出 的 方法 与 离线 求解 方程 组 的 标准 数值 方法 相 竞 争 [1]。 已 经 存在 许多 出 色 的 数值 方 
法 。 通 常 ， 时 间 约 束 对 离线 求解 方程 组 并 不 重要 ， 一 个 好 的 解 却 是 极为 重要 的 。 然 而 ， 如 果 
必须 重复 在 线 或 实时 地 求解 方程 组 ， 如 果 求 解 这 些 方 程 的 时 间 限 制 比 一 台 典 型 的 数字 计算 机 
所 能 提供 的 更 苛刻 ， 那 么 就 必须 探索 其 他 方法 了 。 一 种 可 能 的 求解 方法 是 使 用 脉动 (systolic) 
(或 波 阵 面 (wavefront)) 阵列 [2-5]。 另 一 种 方式 是 使 用 模拟 人 工 神经 网 络 ， 那 是 因为 它们 具 
有 内 在 的 并 行 结 构 [6-8]。 

我 们 的 目标 是 为 线性 方程 组 的 在 线 求解 开发 各 种 学 习 策略 。 这 里 的 基本 原理 与 第 7 章 中 利 
用 神经 网 络 求解 特定 矩阵 代数 问题 是 相似 的 。 对 于 那些 当 特定 的 系统 参数 随时 间 缓 慢 变 化 时 
必须 重复 求解 的 系统 ， 使 用 神经 计算 方法 求解 线性 方程 组 具有 计算 优势 ( 正 是 由 于 参数 随时 
间 的 缓慢 变化 所 以 方程 组 必须 重复 性 的 处 理 ) 。 由 于 系统 参数 的 变化 小 , “新 ”求解 方法 同 
“ 旧 ” 的 方法 相差 不 多 。 因 此 ， 几 乎 没有 “学 习 ” 步 又 需要 开发 以 便于 形成 新 的 求解 方法 。 这 
里 ， 我 们 将 不 关注 这 些 系统 的 最 终 神 经 体系 结构 的 硬件 实现 深层 问题 。 很 明显 这 是 一 个 非常 
重要 的 课题 ， 在 实现 一 个 特殊 的 系统 时 必须 关注 ， 因 此 ， 我 们 把 它 留 给 了 其 他 的 相关 主题 的 
优秀 资源 [比如 ，6-8]。 


8.2 联 立 线性 代数 方程 组 
考虑 一 个 带 有 常数 系数 的 线性 代数 方程 组 


A,X) + AX + 二 GO = b, 


aX + AX, ++ A,X, = b, 
. (8-1) 


mX + Am2% tet BanXy = bn 


已 知 系 数 a; 以 及 户 (i = 1, 2,00, m, j= l, 2, oar) n) 的 情况 下 ， 求解 未 知 量 zi, X, yd, [9-24], 方 
程 组 (8-1) 可 以 写成 一 种 更 方便 (紧凑 ) 的 形式 ， 也 就 是 向 量 矩 阵 的 形式 ， 如 下 


Ax=b (8-2) 
其 中 假设 4ER"”, xER"*', bER"™', FFA 
QA, A co ay 
A= Ay, Ay a, (8-3) 


td 
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x= [xi Xa, “UX, 7 (8-4) 
b = [b,, by, ,bl (8-5) 
这 里 会 出 现 三 种 情况 ; (1) 如 果 m>>n， 这 种 情况 很 普遍 (方程 的 个 数 多 于 未 知 量 )， 这 种 方程 
组 称 作 超 定 方程 组 [25]。(2) 如 果 n>>m (未 知 量 的 个 数 多 于 方程 数 )， 此 时 方程 组 称 作 大 定 方 
程 组 [25]。(3) 当 m = n， 方 程 的 数目 与 未 知 量 的 数目 一 致 (REE A). AREA AIT ER 
作 数 量 矩 阵 ， 向 量 2 有 时 称 作 观 察 向 量 [25]。 
假设 最 简单 的 例子 ， 构 建 一 组 线性 方程 ， 考 虑 xy 平 面 的 两 个 直线 方程 ， 例 如 ， 
y= -2x4+2 
(8-6) 
y=x 
问题 是 : 是 否 存在 xy 平面 的 一 个 公共 点 在 两 条 直线 上 。 或 者 等 效 地 ， 是 否 存在 如 平面 的 两 条 
直线 的 交点 ? 对 这 个 问题 的 回答 是 建立 一 组 代数 方程 ， 然 后 求解 。 可 以 把 方程 (8-6) BSA 
如 下 形式 
2x+y=2 


(8-7) 
-x+y=0 


a e an 


这 是 一 个 完全 的 确定 性 系统 。 即 矩阵 4 是 一 个 方 阵 。 解 这 个 代数 方程 组 (ARREA), 
将 会 得 到 两 条 直线 在 如 平面 的 交点 如 下 


或 者 写成 向 量 和 矩阵 的 形式 


2 wp i 二 ~ 2 过 
xi -|3 3 -13 _ 
bl- al [ol 2 fol-]2 (52) 
3 3 3 














而 此 结果 显示 当 在 xy 平 面 给 制 两 条 直线 时 ， 可 以 看 到 相应 的 交点 如 图 8-1 所 示 。 由 于 两 条 直线 
有 一 个 交点 ， 所 以 方 阵 4 的 逆 存 在 。 假 如 两 条 直线 之 间 不 存在 交点 ，( 即 ， 它 们 是 一 对 平行 线 ) 
方 阵 4 就 是 奇异 的 。 


0 01 02 03 04 05 06 07 08 0.9 
x 


图 8-1 两 条 相交 的 直线 
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我 们 真正 感 兴趣 的 系统 类 型 比 这 里 举例 的 情况 复杂 得 多 。 我 们 将 要 研究 大 规模 的 超 定 、 
欠 定 、 病 态 系统 ， 以 及 县 有 不 确定 性 的 系统 。 


8.3 线性 方程 组 的 最 小 二 乘 解 


假设 在 式 (8-2) 中 的 一 般 线性 方程 组 中 ， 当 m 之 n ( 超 定 系统 )， 将 首先 考虑 满 秩 最 小 二 
乘 问题 [25]。 换 句 话说 ， 假 定 矩 阵 4 满 秩 S ， 其 秩 为 p(4) = n， 求 解 x。 为 了 达到 目的 ， 尽 力 在 
保证 选取 合适 的 p 情 况 下 ， 最 小 化 标量 代价 函数 
& (x) =|4xz 一 中 (8-10) 
基于 不 同 的 p 选 择 ( 即 ， 不 同 的 范 数 ) ， 就 会 产生 不 同 的 最 优 结果 。 如 果 使 用 1 范 数 (LTR) 
和 % 范 数 (L-e) (或 Chebyshev 范 数 ) (参照 A.2.13 节 )， 式 (8-10) 的 最 小 化 是 困难 的 ， 
为 对 于 这 些 p 值 ， 函 数 F(x) = Ax- bll, 不 可 微 [26]。 当 p = 1 时 ， 称 作 最 小 绝对 偏差 问题 。 对 于 
p=2, REFEREED- RAA, máp = % 时 ， 称 作 最 小 最 大 问题 。 式 (8-10) 中 所 用 的 范 数 
类 型 很 大 程度 上 取决 于 数据 误差 的 分 布 和 [18-20] 中 将 要 提 及 的 应 用 类 型 。 对 于 当 误 差 是 双 指 
数 分 布 (或 拉 普 拉 斯 (Laplace) 分 布 ) [27, 28] 时 ， 可 以 用 Ll, 范 数 。 当 误差 分 布 具有 明显 的 剧 
烈 的 跃迁 时 ， 例 如 均匀 分 布 ， 那 么 应 该 用 L。 范 数 (或 Chebyshev 范 数 )。 但 是 ， 如 果 误 差分 布 
是 高 斯 分 布 ( 正 态 分 布 )， 此 时 ， 最 好 使 用 欧 几 里 得 范 数 (或 L, 范 数 )。 使 用 欧 几 里 得 范 数 ， 
得 到 最 小 二 乘 问题 


miné (x)= min ll Ax ~ bil, (8-11) 
相 比 其 他 情况 更 易于 处 理 。 如 果 4 是 满 秩 的 ， 式 (8-2) 就 会 有 唯一 解 [25]。 一 般 情况 下 ， 标 
量 代价 函数 写作 
(x)= S1Ax -bÈ = lelh (8-12) 
KH, 
e = Ax—b (8-13) 


是 解 的 误差 向 量 (参照 A.2.7 节 ) 。 计 算式 (8-12) 对 于 向 量 x 的 梯度 ， 并 设 结果 等 于 0， 也 就 
EV, E(x) =0， 可 以 推导 出 以 下 正规 方程 组 ， 


ATAx —A™b=0 (8-14) 
直接 由 式 (8-14) 可 解 出 x: 
x= (4T74) 'A'bh (8-15) [345 
其 中 
4+= (4T74)-L47 (8-16) 


定义 为 4 的 伪 送 (参见 A.2.7 节 )。 式 (8-15) 的 解 是 式 (8-2) 问题 的 “批量 ” 解 。 如 果 m<n 
(KEER) 和 p(4) = m (BDA AiR), 方程 (8-2) 的 解 为 


x =A" (A447)-', (8-17) 





O 当 我 们 用 神经 计算 方法 求解 线性 方程 组 时 ， 这 个 限制 实际 上 并 不 需要 。 这 -点 的 详细 讨论 会 在 适当 时 间 
指出 。 
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其 中 
4=470447) (8-18) 
为 4 的 伪 逆 。 


8.4 求解 线性 方程 组 的 最 小 二 乘 神经 计算 方法 


首先 假定 需要 求 取 式 (8-2) 的 解 ， 但 不 是 基于 批 处 理 方法 而 是 基于 一 种 能 够 “学 习 ” 求 
解 的 方法 。 一 种 直接 的 方法 是 使 用 最 速 梯度 下 降 的 方法 。 将 沿用 第 7 章 中 的 方法 。 连 续 时 间 
(模拟 ) 的 学 习 规则 给 定 如 下 
E nuy 50) (8-19) 
FppeR'™' (w= [ui], i, j= 1,2,.…,n) 是 一 个 正定 矩阵 ， 一 般 情况 下 选择 为 对 角形 矩阵 。 也 
就 是 ， By = H Oy» Ky, >0, Kronecker (HEPAT) A (参照 A.2.8 节 ) 并 且 x(0) = xo K 
(8-19) 的 梯度 已 经 计算 过 ， 是 式 (8-14) 的 左 侧 。 将 以 上 求 得 的 梯度 代入 式 (8-19), Aine 
到 解 如 下 方程 组 的 学 习 规 则 : 


pA" Ax- A'b) = -pA (Ax -b) (8-20) 
在 A.2.7 节 ， 定 义 求解 误差 为 
e=Ax—b (8-21) 
将 式 (8-21) 代入 式 (8-20), ， 得 到 式 (8-2) 中 求解 线性 方程 组 的 连续 时 间 学 习 规则 
de r 
可” -uA e (8-22) 


其 中 要 求 初始 条 件 x(0) = xo HE (8-21) MR (8-22) 一 起 足够 求解 任何 方程 组 ， 不 论 方程 
组 是 完全 确定 的 (m = 由 ， 超 定 的 (m>n), WREN (m<n, 或 者 4 是 不 满 秩 的 ， 甚 至 4 是 
病态 的 。 很 多 时 候 使 用 正规 化 的 给 阵 方程 Ar = 8 是 很 方便 的 ， 其 中 有 六 =, BG = 2 
i 2 i 2 
(= 1,2, =, m, f= 1,2,…,)。 因 此 ，a, 是 矩阵 4 的 第 ; 行 ,||， 册 是 L 范 数 (或 欧 儿 里 得 范 数 ) 。 
通过 与 第 7 章 中 开发 结构 化 神经 网 络 相似 的 过 程 ， 可 以 形成 一 个 神经 体系 结构 以 实现 用 于 
求解 线性 方程 组 的 最 小 二 乘 神经 计算 方法 。 图 8-2 是 一 个 微分 系统 的 方 框图 ， 图 中 显示 了 神经 
计算 方法 的 模拟 系统 实现 的 基础 结构 ， 而 图 8-3 显 示 神 经 网 络 架 构 的 细节 。 这 是 一 个 三 层 网 络 
结构 ， 输 出 带 有 一 系列 的 积分 器 。 积 分 器 的 初始 条 件 是 与 式 (8-22) 的 连续 时 间 学 习 规则 相 
关 的 初始 条 件 。 反 馈 连 接 把 观察 向 量 的 元 素 一 起 “输入 ”给 网 络 。 如 果 积 分 器 (可 用 的 放大 
器 ) 在 饱和 区 域 工作 ， 那 么 反馈 信号 必须 经 过 一 个 S 形 非 线性 过 程 。 这 样 就 为 输出 的 反馈 信号 
提供 一 个 自然 的 饱和 特征 。 








图 8-2 微分 实现 求解 线性 方程 组 的 最 小 二 乘 神经 计算 方法 的 方 框图 
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图 8-3 (以 最 小 二 乘 方法 ) 求解 线性 方程 组 的 神经 网 络 体系 结构 图 


考虑 式 (8-21) 定义 的 误差 向 量 ， 这 个 误差 向 量 的 公式 只 适用 于 完全 确定 性 的 情况 〈 即 ， 
m=n)。 为 了 对 于 学 习 过 程 中 的 任何 实例 估计 误差 ， 必 须 改写 误差 表达 式 为 
e=A'Ax—A’b (8-23) 
注意 式 (8-23) 的 右 侧 等 于 零 时 ， 结 果 就 是 式 (8-14) 的 正规 方程 形式 。 在 误差 代价 函数 


E(x) = T = zee (8-24) 


中 使 用 式 (8-23) ， 并 计算 式 (8-24) 中 对 于 x 的 梯度 值 ， 就 从 式 (8-19) 得 到 新 的 连续 时 间 
学 习 规则 如 下 : 


x. 8-25 


其 中 ， 要 以 x(0) = xzo 作 为 初始 条 件 。 因 此 ， 式 (8-23) 和 式 (8-25) 一 同 给 出 了 求解 联 立 线性 
代数 方程 组 的 一 般 学 习 规 则 。 此 外 ， 没 有 必要 作出 “ 满 秩 ”的 假设 ， 也 就 是 ， 同 8.3 节 中 的 例 
子 一 样 ，p(4) = min(m, n)。 这 一 点 从 学 习 规 则 本 身 看 是 显然 的 。 正 如 所 看 到 的 ， 这 里 不 使 用 
除法 ， 只 用 加 法 和 乘法 。 由 式 (8-23) 和 式 (8-25) 中 的 学 习 规 则 所 得 到 的 结果 同 使 用 奇异 
值 分 解 (SVD) (参照 A.2.14 节 ) 所 确定 的 线性 方程 组 的 解 是 一 致 的 。 

考虑 到 稳定 性 的 原因 ，U 和 矩阵 的 元 素 选 择 是 很 关键 的 。 显 然 要 确保 式 (8-25) 中 的 向 量 微 
分 方程 是 稳定 的 。k 中 元 素 的 选择 也 决定 了 收敛 到 平衡 状态 (AI, Ax = 5 的 解 ) 的 速度 。 推 导 
学 习 规则 稳定 性 的 条 件 ， 也 就 是 式 (8-25) 中 的 向 量 微分 方程 ， 实 际 上 是 很 直接 的 。 从 A.4 市 
中 可 以 看 到 ， 如 果 合 适 的 选择 李 雅 普 诺 夫 (能 量 ) 函数 得 到 的 全 导数 是 负 定 的 ， 由 此 证 明 动 
态 系统 的 渐 近 稳定 性 。 此 时 ， 李 雅 普 诺 夫 或 能 量 函 数 成 为 式 (8-24) 的 误差 代价 函数 ， 动 态 
系统 也 可 以 作为 式 (8-25) 的 连续 时 间 学 习 规则 。 因 此 ， 能 量 函 数 的 全 导数 可 以 根据 式 


© 式 (8-24) 对 于 x 求 梯度 得 到 V5 (x) = AAA Ax— AD) = A'Ae。 但 是 ， 应 用 与 7.2 节 使 用 的 同样 原理 ， 所 
HEAV, E(x) =e. WMA (7-18) 和 式 (7-19) 的 有 关 说 明 。 
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347 (A.197) 进行 计算 ， 并 由 














348 
& (x)= VE (x) (8-26) 
dt 
给 出 。 如 果 把 式 (8-19) 中 的 连续 时 间 学 习 规则 的 一 般 形式 代入 式 (8-26), 43 
E (x)= —Vi 多 (JUV E(x) (8-27) 
如 同 以 前 在 式 (8-27)， 解 释 得 那样 使 用 VY, 多 (x) =e， 建 立 如 下 等 式 : 
& (x) =—e pe (8-28) 
回忆 曾经 假定 矩阵 4 是 正定 的 ， 也 就 是 说 4k > 0， 因 此 ， 有 
E(x)=—e pe <0 (8-29) 
(假定 e 了 0)， 这 说 明 ， 能 量 函 数 的 全 导数 总 是 负 定 的 。 因 此 ， 由 A.4 节 , KH (8-25) 是 渐 近 稳 
定 的 。 
学 习 规 则 的 标量 形式 能 够 直接 由 式 (8-25) 和 式 (8-23) 写作 
& = -5 Hines x;(0) = Xi (8-30) 
i=1,2,--,n, Bw, uw, 参数 的 选择 必须 仔细 ， 以 确保 微分 方程 的 稳定 性 以 及 向 平衡 
状态 〈 即 ， 方 程 4x = 5 的 解 ) 收敛 的 合理 速度 。 式 (8-30) 中 的 ei 项 是 式 (8-23) 中 的 误差 向 
量 的 单个 元 素 。 把 误差 向 量 中 的 标量 元 素 通 过 定义 矩阵 给 
WAA'A Wen” (8-31) 
利用 标量 形式 ， 式 (8-31) 可 以 写作 
w, = S apa, (8-32) 
其 中 ,及 = 1, 2,…,n 以 及 r = 1, 2,…, n。 利 用 式 (8-32), X (8-23) 中 的 误差 向 量 元 素 就 可 以 
写作 如 下 形式 : 
e, = Sw” - Sab, (8-33) 
例 8.1 求解 下 列 方程 组 〈 欠 定 组 ): 
14 7 10 n -1 
2 5 8 il} 7}=| 2 (8-34) 
3 6 9 121/31 | 5 
X4 
A (8-25) 和 式 (8-23) 中 的 学 习 规则 的 离散 时 间 形 式 经 常用 作 求解 式 (8-34), BD 
x(k + 1) = x(k) — pe(k) (8-35) 


其 中 
e(k) = ATAx(k)—A™b (8-36) 
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具有 标量 4 = y = 0.003 Q = 1, 2, 3,4), Ke TE. MAAR Ax(0) = [0, 0, 0, 0] ， 
执行 2500 次 迭代 训练 。 由 式 (8-35) 和 式 (8-36) 中 的 学 习 规则 产生 的 解 如 下 

x = [2.5000, 1.333, 0.1667, 一 1.0000]7 (8-37) 
这 个 解 同 使 用 奇异 值 分 解 (SVD) (参考 A.2.14 节 ) 得 到 的 解 一 致 ， 保 留 四 位 小 数 。 图 8-4 中 
描述 了 代价 函数 的 值 随和 迭代 次 数 的 变化 情况 。 


108 





10? 
10° 10! 10? 10° 104 
RAR [log 规 模 ] 
图 8-4 求解 式 (8-34) 中 线性 方程 组 的 离散 时 间 学 习 规则 ( 见 式 (8-35)、 式 (8-36)) 收敛 图 


求解 线性 方程 组 和 拭 阵 伪 北 之 间 的 关系 
正如 在 本 章 概述 中 描述 的 一 样 ， 求 解 线 性 方程 组 和 计算 矩阵 的 逆 (或 伪 逆 ) 是 等 价 的 。 
这 容易 从 式 (8-35) 和 式 (8-36) 的 学 习 规 则 中 看 到 。 考 虑 和 矩阵 4eR"**， 计 算 它 的 伪 逆 ， 假 定 
一 系列 的 〈 共 六 个 ) m 维 bp 向 量 如 下 
b, =[1,0,0,0,---,0]’ =e, b, ={0,1,0,0,---,0]’ =e, 
b, ={0,0,1,0,---,0]" =e, b,=[0,0,0,0,…,1] =e, 
换 句 话 说 ， 观 察 向 量 集 共 同 组 成 一 个 m x m 的 单位 矩阵 
[b,, bs", = [es, €63, Onl = LER” (8-39) 


因此 ， 式 (8-36) 中 的 向 量 5 可 以 用 式 (8-39) 给 出 的 单位 趣 阵 替换 ， 向 量 x 用 矩阵 CE R” 
赫 换 ， 误 差 向 量 e 用 误差 矩阵 BEgi"…" 替 代 。 这 样 ， 导 出 误差 埠 阵 的 表达 式 为 


(8-38) 


E(k) = ATAC(k)—A™ (8-40) 
式 (8-35) 的 表达 式 变 成 (对 于 标量 学 习 率 参数 只) 
C(k + 1) = C(k)— uE(k) (8-41) 
将 式 (8-40) RAK (8-41)， 再 假定 标量 学 习 率 参数 >>0， 从 而 有 
C(k + 1) = C(k) + pAT [I —AC(k)] (8-42) 


这 就 是 在 式 (7-20) 中 的 决定 矩阵 伪 逆 的 学 习 规 则 。 即 使 式 (8-40) 中 的 误差 矩阵 与 式 〈7-13) 
中 的 不 同 ， 仍 然 可 以 看 到 在 所 使 用 的 误差 代价 函数 的 形式 方面 ， 二 者 是 等 价 的 。 
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与 求解 方程 组 的 任何 数值 方法 有 关 的 收敛 问题 都 很 重要 [15, 29]。 现 在 进一步 研究 前 一 节 
所 提 及 的 神经 计算 方法 。 这 里 使 用 共 轿 梯度 的 方法 [30-32] (参见 A.5.5 节 ) 代替 最 速 下 降 的 方 
法 ， 加 快 收敛 的 速度 。 按 照 在 A.5.5 节 所 描述 的 具有 重启 动能 力 的 Fletcher-Reeves 共 思 梯 度 算 
法 ( 即 ， 每 经 过 nn 次 迭代 产生 一 个 最 速 下 降 阶 段 )。 因 此 ， 打 算 求 解 A4x = 5 的 超 定 或 者 完全 确 
定性 方程 组 ， 其 中 假定 4ER"*"(m 之 nn)。 
为 了 将 共 罗 梯度 方法 整合 到 前 一 节 提 及 的 离散 时 间 学 习 规 则 ， 首 先 要 推导 出 先 代 xi 的 更 
新 表达 式 中 必 的 表达 式 。 在 Fletcher-Reeves 共 斩 梯 度 算 法 的 第 4 步 中 ， 求 解 的 更 新 如 下 
X, =X, + ad, (8-43 ) 
其 中 
a, = mind (x, + ad, ) (8-44) 
其 中 向 量 d 是 当前 方向 向 量 ， 儿 (。) 是 要 最 小 化 的 目标 函数 。 此 处 目标 函数 如 下 
& (x)= Ziek = sere (8-45) 


其 中 ， 对 于 求解 4x = 8 的 解 误 差 由 下 式 给 
e=Ax—b (8-46) 
由 此 ， 
E(x, + Od,) = 了 LA +ad,)— bT [A(x, +ad,)-5] 


= SOTA" Ag, +x) A" Ad, - x, A'b + ad! A" Ax,) (8-47) 


+a°d" A’ Ad, - ad? A'b - b’ Ax, - ab” Ad, + b’ b 


必须 计算 式 (8-47) 关于 co 的 梯度 ， 然 后 令 结果 等 于 0。 








V Ex, +ad,)= we) =d! A" Ax, +ad" A" Ad, -d7 Ab = 0 (8-48) 
oO 
从 式 (8-48) 求解 a， 同 时 令 一 ax， 得 到 
-Ek 
a- d A'b~di A"Ax, dilA'b~-A'Ax] -d;8, (8-49) 
i d7 A' Ad, d' A’ Ad, d7 A’ Ad, 
或 
T 
Bd (8-50) 
Oe GTAT Ad, 
其 中 8 是 式 (8-45) 的 梯度 ， 
g, =V.gCz)= A Ax, -A'b (8-51) 


因此 ， 求 解 Ax = biFletcher-Reeves t R A (MEERA) 的 步骤 可 以 总 结 如 下 : 
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求解 Ax = b 的 Fletcher-Reeves HER MIE (附带 重新 启动 ) 


OO RN TR 


步骤 1 Bx. 
步骤 2 Hg l-0= 8go =A Ax -A b, 
BRI 令 d, = 一 8o。 


步骤 4 计算 x ,= x+ xrdi， 其 中 = 一 gxdi/ (di A'Ad,). 

步骤 5 HHen =A Ax, Ab, 

步骤 6 Hd, =-8 t Bd,， 其 中 Bi g Bi. Mea). 

步骤 4~6 随 K=0,1,…,n 一 1 变化 执行 。 

步骤 7 ”用 zu 替换 ro， 然 后 回 到 步骤 1。 

步骤 8 继续 以 上 步骤 直到 达到 收敛 ， 终 止 的 标准 是 id. 上 <s (其 中 是 一 个 预先 确定 的 足够 小 的 数 )。 口 


图 8-5 描 述 了 用 共 轿 梯度 算法 求解 线性 方程 组 的 离散 时 间 神 经 网 络 体 系 结构 。 
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gk+1) sss gn(k+1) 


b) 
图 8-5 a) 用 共 斩 梯度 算法 求解 线性 代数 方程 组 的 离散 时 间 神 经 网 络 体系 结 
构 ，b) 用 于 计算 w 和 有 的 部 分 神经 体系 结构 
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例 8.2 求解 以 下 方程 组 


-10 -3 -2 -5|| |7| 4 (8-52) 
1 -5 -2 Sllx| |10 
8 -6 2 -2 3 


对 于 这 种 超 定 的 方程 组 ， 采 用 式 (8-35) 和 式 (8-36) 给 出 的 离散 时 间 最 速 下 降 方法 以 及 上 
面 刚 提 到 的 离散 时 间 共 斩 梯 度 方法 都 可 以 求解 zx。 使 用 最 速 下 降 梯度 方法 ， 单 个 学 习 率 参数 设 
置 为 4 = 0.0055 以 及 一 系列 的 随机 数据 初始 化 zx， 学 习 规 则 在 1 900 次 迭代 后 收敛 到 解 。 解 如 下 

x = [1.8725, 0.0935, — 7.4699, — 1.5274]" (8-53) 


这 与 使 用 奇异 值 分 解 (保留 四 位 小 数 ) 的 结果 一 致 。 收 和 敛 图 如 图 8-6a 所 示 ， 为 解 向 量 中 的 每 
个 元 素 的 情况 。 使 用 上 面 提 到 的 共 辆 梯度 学 习 规则 (使 用 同 最 速 下 降 学 习 规 则 相同 的 初始 条 
件 )， 四 次 迭代 后 就 可 以 得 到 式 (8-53) 的 解 ! 因此 ， 基 于 共 轿 梯度 的 学 习 规 则 比 基 于 最 速 下 
降 的 方法 在 训练 步骤 上 少 475 次 ! 对 于 基于 共 思 梯 度 的 学 习 规则 ， 图 8-6b 的 收敛 图 反映 了 解 向 
量 中 的 每 一 个 元 素 的 情况 。 
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图 8-6 a) 使 用 基于 最 速 下 降 学 习 规 则 求解 式 (8-52) 问题 的 收敛 图 ，b) 使 用 
基于 共 轿 梯度 学 习 规则 求解 式 (8-52) 问题 的 收敛 图 


8.6 求解 受 噪 声 侵 扰 的 线性 方程 组 的 广义 鲁 棒 方 法 


很 多 时 候 数 据 中 的 误差 分 布 并 不 是 高 斯 的 (或 者 正 态 的 )。 在 这 些 情况 中 ， 例 如 ， 假 如 脉 
wh (CRR) 噪声 存在 ， 那 么 前 一 节 涉 及 的 基于 L, 范 数 的 标准 最 小 二 乘 性 能 准则 对 于 4xr = b 
的 解 将 只 能 产生 一 个 很 差 的 估计 值 。 因 此 ， 在 非常 大 的 误差 ( 称 作出 格 点 ， 亦 称 离 群 值 )、 脉 
冲 噪 声 或 者 有 色 品 声 出 现 的 情况 下 ， 当 系统 误差 不 遵循 高 斯 分 布 时 ， 应 该 采用 另 一 种 不 同 的 
方法 。 为 了 减缓 非 高 斯 噪声 的 影响 同时 提供 解 向 量 x 的 章 棒 性 估计 ， 我 们 要 采用 一 种 更 加 一 般 
的 误差 代价 函数 公式 。 只 有 当 所 有 的 误差 属于 观察 向 量 8 并 且 满 足 高 斯 分 布 ，( 即 ， 满 足 零 均 
值 以 及 等 变化 的 无 关联 误差 ) 普通 的 最 小 二 乘 问 题 才 是 最 优 的 。 现 在 考虑 误差 存在 于 数量 算 
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阵 4， 并 且 是 非 高 斯 分 布 的 情况 。 

这 里 所 采用 的 方法 比 迭代 加 权 的 最 小 二 乘 方法 (或 者 鲁 棒 最 小 二 乘 准则 ) 更 有 一 般 性 [8， 
13, 19, 20]。 一 般 情况 下 ， 在 数据 中 想 要 的 出 格 点 加 权 ( 即 ， 严 重 的 误差 ) 少 于 较 小 的 误差 。 
因此 ， 这 就 需要 一 个 “增长 ”组 于 二 次 的 加 权 函 数 。 这 里 所 指 的 二 次 函数 就 是 在 8.4 节 用 于 求 
解 4x = 5 问题 的 最 小 二 乘 方法 。 二 次 函数 的 “尾部 ”施加 在 大 的 (或 严重 的 ) 系统 误差 的 加 权 
往往 太 大 。 除 非 这 些 误差 缩小 ， 否 则 它们 对 4x = 5 的 解 的 影响 将 是 彻底 压倒 性 的 ， 同 时 ， 对 于 
解 向 量 x 的 估计 将 会 非常 差 。 因 此 ， 正 如 前 面 描述 的 ， 需 要 一 个 增加 少 于 二 次 的 加 权 函 数 。 

对 于 解 4x = 5 的 问题 (AER"*”，BbER”"*!)， 现 在 可 以 描述 成 如 下 一 般 化 的 最 小 化 问题 。 
确定 如 下 向 量 

xen! (8-54) 
从 而 最 小 化 加 权 统 计 误 差 代 价 函 数 [33-35] 
& (x) = 1" SE{ f (e)} (8-55) 
其 中 , 1= [1 1 … 1, SER" (S= SAIS > 0)，E{-} 是 期 望 ( 值 ) 算 子 ,8 是 一 个 凸 的 加 
KARO, AR 
e=Ax-—b (8-56) 
因为 只 有 瞬时 误差 会 被 处 理 ， 所 以 期 望 值 算 子 可 以 忽略 [33]。 因 此 ， 实 际 的 误差 代价 函数 可 以 
写作 如 下 形式 
& (x) = 1' Sf(e) (8-57) 
Kp, TEM Pept RES — A PPE OE, ARRAL = 2 采用 最 速 下 降 梯度 方法 来 
开发 学 习 策 略 ， 使 用 与 8.4 节 相同 的 形式 
至 -YL (8-58) 
Bp, ER” (u= [u], HPL j= 1, 2,…, 2) 是 一 个 典型 的 要 对 角 化 的 正定 矩阵 ， 也 就 是 ， 
Uj = 1,0; » Hepp, > 0。 因 此 ， 必 须 定义 式 (8-58) 中 的 梯度 如 下 
bE 


yga) = 22) _ Za spe) =“ sge) (8-59) 
Ox Ox ox 


其 中 ，8(D = dafu AE. BMH (8-59) 中 的 偏 导数 ae/x 说 明 一 下 。 我 们 可 以 
把 式 (8-56) 中 的 误差 向 量 写作 如 下 形式 


e=Ax-b=| . |x-b (8-60) 


其 中 ， a m, `, a, BAN 47 AE, 也 就 是 ， a ER”"( = 1, 2, ty m). 因此 ， 式 (8-60) 可 以 
写作 如 下 形式 


-b (8-61) 
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A (8-61) 对 于 向 量 x 求 偏 导数 如 下 《利用 A.3.4.1 节 的 结果 ) 


0 
a,x a 
ð 
Oe 0 1x —a,x T T T T 
一 = 一 | < f= 2% |=[@ „a; ,a =A - 
ox Ox : . [ 1 2 im lnxm (8 62) 
a,x 
a,x 


因此 ， 通 过 使 用 式 (8-62) 的 结果 ， 式 (8-59) 的 梯度 V,: Fx) 可 以 写作 


0&8 (x) _ 
Ox 


V,E(x) = Žr sfe) = 47Sg(e) (8-63) 


再 利用 式 (8-63), xX (8-58) 的 鲁 棒 性 学 习 规 则 可 以 写作 如 下 形式 
dx T 
a A Sg(e) (8-64) 
为 了 表明 这 是 一 个 普遍 的 结果 ， 假 使 令 加 权 和 矩阵 S = 了， 并 且 令 加 权 国 数 取 作 二 次 形式 ， 也 就 

是 ，AD = 1/2P[8(0 = dfF(D/dr =4, 即 线性 函数 ]， 则 式 (8-64) 变化 成 
dx 
dt 
这 也 就 是 式 (8-22) 为 求 问 题 的 首 个 最 小 二 乘 解 获得 的 结果 。 图 8-7 描 述 了 用 于 求解 线性 方程 
组 的 广义 鲁 棱 性 方法 的 神经 网 络 体 系 结构 的 细节 。 在 图 中 假定 加 权 和 矩阵 为 单位 和 矩阵， 即 

356) S=Tnxmo 


= —pAte (8-65) 





图 8-7 求解 线性 方程 组 的 广义 鲁 棒 性 方法 的 神经 网 络 体系 结构 图 。 假 定 $ = nnet 
8(D) =df (Ddt， 且 ! 是 一 个 虚 变 量 ， 其 中 f(: ) 是 选择 的 非 线性 加 权 国 数 


我 们 需要 讨论 一 下 加 权 函 数 A(:) 的 选择 问题 ， 即 在 式 (8-57) 中 出 现 的 误差 代价 函数 。 
正如 前 面 所 描述 的 ， 此 函数 必须 是 山 的 或 者 近似 凸 的 (参照 A.3.1 节 定义 A11), SMR 
数 的 选择 存在 着 很 多 的 可 能 ， 但 是 表 9-2 中 总 结 了 其 中 四 个 最 广泛 的 应 用 ， 图 9-21 给 出 了 图 示 。 
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图 9-22 中 描述 了 相关 联 的 导数 。 所 使 用 的 函数 类 型 以 及 限界 参数 6 都 依赖 于 具体 数据 。 因 此 ， 
通常 可 以 使 用 试 错 的 过 程 来 决定 使 用 “最 好 ”的 函数 以 及 “最 好 ”的 参数 bp 值 。 有 趣 的 是 ， 可 
以 设置 使 用 一 个 最 普通 的 加 权 函 ， 即 logistic 函 数 ， 见 下 式 。 

fa = B'ln{cosh(¢/p)] (8-66) 
图 8-8 显 示 对 于 限界 参数 6 三 个 的 值 的 加 权 函 数 以 及 与 二 次 函数 进行 对 比 的 坐标 图 。 正 如 在 图 
8-8 中 所 看 到 的 ， 随 着 限界 参数 B 值 的 增加 ， 曲 线 的 形状 接近 二 次 函数 。 因 此 ， 对 于 较 大 的 p 值 ， 
学 习 算法 的 鲁 棒 形 性 能 会 减 小 。 观 察 这 幅 图 ， 我 们 发 现 误差 大 约 位 于 -2/3 一 2/3 之 间 ， 所 有 的 
曲线 采用 了 相同 的 (二 次 ) 加 权 。 在 此 范围 以 外 的 误差 ， 依 赖 于 限界 函数 的 值 ， 加 权 将 小 于 
二 次 。 但 是 ， 选 择 参 数 B 值 时 必须 小 心 仔细 。 当 6 值 太 小 时 ， 有 价值 的 信息 会 丢弃 。 相 反 ， 当 有 
值 太 大 时 ， 出 格 点 以 及 噪声 强烈 干扰 数据 的 同时 ， 减 退 解 向 量 的 估计 ( 见 图 8-8)。 图 中 显示 的 
PB 值 介 于 0.7 ~ 1 之 间 的 部 分 显示 了 一 种 可 能 的 最 优 区 域 ， 其 中 有 较 好 的 出 格 点 出 现 及 噪声 拒绝 
发 生 。 图 8-9 描 述 了 以 上 各 自 的 导数 函数 。 


4.5 








解 向 量 x 的 出 格 点 和 
对 数 的 (B= 3) 噪声 碱 退 的 估计 


出 格 点 和 噪声 拒绝 
的 可 能 最 优 区 域 


图 8-8 对 于 三 个 不 同 的 限界 参数 8 值 的 对 数 加 权 函 数 对 比 二 次 函数 fo (0) = 1/2?， 其 中 殿 一 个 虚 变 量 
把 鲁 棒 性 神经 计算 学 习 规则 总 结 为 如 下 步骤 。 采 用 离散 时 间 向 量 和 矩阵 形式 的 学 习 规 则 。 
求解 具有 了 噪声 的 方程 组 的 鲁 棒 学 习 算法 


ea 


步骤 1 AAA WEE URS, 
步骤 2 选取 一 个 合适 的 加 权 函 数 /(.)， 同 时 计算 导数 g(*)。 再 选择 一 个 合理 的 限界 参数 B 值 。 
步骤 3 令 k=0 (kX 是 离散 时 间 指 数 )， 并 且 选 择 一 个 初始 点 x(0)。 

步骤 4 根据 下 式 ， 计 算 解 误差 。 





e(k) = Ax(k)— b (8-67) 
PMS 根据 下 式 ， 更 新 解 向 量 的 估计 值 。 
x(k + 1) = x(k) — MAT Sgle(k)] (8-68) 


步骤 6 收敛 完成 则 停止 ， 否 则 ， 令 ke 一 上 E+ 1， 返 回 步骤 4。 口 
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例 8.3 
的 影响 的 。 
0.1417 
-1.2650 
-0.2704 
-0.5650 
1.8503 
0.8016 
1.0093 
-0.2946 
0.5661 
0.1112 


以 及 


第 二 部 分 


gif) 的 微分 


-1.0075 

1.3090 
-0.5756 
-2.1317 
-0.5428 

0.0237 
-0.0254 
~1.6822 
-0.0328 

0.9667 


FY 28 tt HOG Fl 


对 数 的 (6 = 0.7) 


-0.7732 
~0.1451 
0.2369 
-2.3882 
2.4866 
0.3418 
0.0430 
0.1412 
0.6679 
-0.7838 


对 数 的 (B 


=1) 








图 8-9 图 8-8 中 的 加 权 函 数 的 导数 


这 里 示例 式 (8-67) 和 式 (8-68) 中 的 离散 时 间 鲁 棒 学 习 规 则 是 如 何 减轻 脉冲 噪声 
要 求 找到 一 个 包含 10 个 方程 、10 个 未 知 数 的 系统 4x = DARKER ', Herp 


-0.9113 
-0.2353 

0.3593 
-1.5344 

0.9782 
-0.4727 
-0.9378 
-0.8454 

1.4221 
-0.4777 


0.4871 
-1.4658 
-0.6807 

0.1802 

0.2633 

1.6016 
-1.4734 

1.1526 
-0.3615 
-0.8919 


-1.6601 -1.3186 0.4035 -0.6255 
0.4176 1.1449 2.0468 0.8100 
0.4390 0.4493 -1.0552 -1.0041 
1.3482 1.1635 -1.4374 -1.1220 
0.4738 -1.0853 1.1041 0.2045 

-0.3046 1.9539 -1.3561 0.8812 
0.2955 0.2372 0.3510 0.5705 

-0.7930 0.1700 -1.9511 -1.3950 
1.5595 0.1963 0.5752 0.4470 
2.6388 -0.2533 -1.5569 -0.1884 


-1.0275 
-0.2398 
-0.3516 
-1.0924 
-1.1709 
-0.5963 

0.5723 
-0.8927 
-0.2336 
-0.4363 


(8-69) 


b = [— 0.7800, — 1.1331, 0.9693, — 0.0026, 1.8051, 0.3402, 0.2821, 1.4632, 0.1786, 0.5643] 


(8-70) 


A (8-69) PERAN AE “RIE” E, Aik PRE SEB LFA. = 4 + A4 ， 它 受到 了 
噪声 的 和 干扰。 因此， 实际 上 求解 的 是 如 下 系统 
Ax. =b 
其 中 式 (8-69) 中 的 年 阵 4. 的 一 些 元 素 受 到 了 脉冲 噪声 的 和 干扰。 特别 是 ， 可 以 从 区 间 为 [0， 
0.25] 的 均匀 分 布 中 选取 随机 数据 ， 这 些 值 加 到 式 (8-69) 中 和 矩阵 4 的 随机 的 选项 中 ， 形 成 受 干 
扰 的 阵列 4.。 因 此 ， 这 个 均匀 分 布 可 以 作为 脉冲 噪声 〈 或 者 出 格 点 ) 的 模型 。 脉 冲 噪 声 所 干 
扰 的 阵列 元 素 以 0.15 的 概率 随机 选取 ， 也 就 是 ， 式 (8-69) 中 的 矩阵 4 以 平均 15 多 的 概率 选取 


(8-71) 
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的 元 素 将 受到 方差 为 o: = (0.15) (0.25}/12 = 7.8125 x 10-4 的 脉冲 噪声 的 干扰 《参照 A.7.4 节 ) 。 
BEL, Aa, 的 值 以 及 4 受到 干扰 的 阵列 项 都 在 表 8-1 中 列 出 。 
因此 ， 目 标 是 求解 式 (8-71) 中 的 x. ， 并 且 使 用 一 种 方法 使 获得 的 解 尽 可 能 接近 真实 的 
解 ， 也 就 是 ， 令 x. 2x。 利 用 MATLAB 求 解 式 (8-71) 中 的 x. ， 得 到 
x” = [0.4295, 0.2243, 0.9805, — 0.7051, 0.4362, 0.5609, 0.3072, 0.2087, — 1.4279, 0.5178]7 
(8-72) 
因为 4, 是 带 有 和 良好 条 件数 的 满 秩 矩阵 (参见 A.2.15 节 )， 式 (8-72) 的 解 可 以 以 简明 的 方式 使 
用 MATLAB 内 建 的 函数 ijnv， 即 x*= inv(4,)*b 计 算 。 真 实 的 解 ( 即 ，“ 真 值 ”系统 4” = 8 的 解 ) 
通过 相同 的 方式 计算 得 到 ， 即 x = iny(4)*b， 从 而 得 到 如 下 式 
x” = [0.3177, 0.0486, 0.9002, — 0.4987, 0.2073, 0.4242, 0.2029, — 0.0008, — 1.0085, 0.2863]" 
(8-73) 
上 面 提 和 到 的 离散 时 间 形 式 的 鲁 棒 神 经 计算 学 习 规则 可 以 用 于 决定 鲁 棒 解 。 总 共 需 要 420 次 
的 迭代 才能 达到 收敛 ， 使 用 限界 参数 6 = 0.7 的 对 数 加 权 函 数 。 这 是 使 用 试 错 法 确定 的 最 优 值 。 
使 用 标量 学 习 率 参数 ， 通 过 试 错 法 确定 最 优 值 使 4 = 0.01, BERES = IT，xY (0) 的 初始 条 件 
设置 为 0 均值 和 单位 方差 高 斯 随机 数据 。 通 过 和 鲁 棱 神经 计算 方法 推导 出 的 结果 区 如 下 
x" = [0.2663, 0.0306, 0.9194, — 0.5053, 0.1882, 0.4092, 0.1678, — 0.0553, — 0.8985, 0.2828]7 
(8-74) 
(1) 使 用 MATLAB 求 解 4,x. = b 的 解 和 真 值 系统 4x*” = b 的 解 ，(2) 使 用 鲁 棒 神 经 计算 方法 求解 
Ax. = 3 的 解 和 真 值 系统 4xz% = 5 的 解 ， 估 计 的 标准 误差 (SEE) 通过 计算 得 到 结果 。 使 用 式 
(8-72) 和 式 (8-73) 的 结果 ，MATLAB 求 解 的 SEE 值 如 下 
10 4/2 
yor -xy 
SEE, -| 一 一 | -02116 (8-75) 


使 用 式 (8-73) 和 式 〈8-74) ， 鲁 棒 神 经 计算 求解 的 SEE 值 如 下 


12 


10 1 
六 Co -xy 
SEE, = 7 = 0.0450 (8-76) 


可 见 ，( 使 用 MATLAB 的 ) SEE, 值 大 约 比 (使 用 和 鲁 棱 神经 计算 方法 ) 的 SEE 值 大 4.7 倍 。 使 
用 鲁 棒 神经 计算 方法 较 之 使 用 MATLAB 方 法 ， 方 程 组 解 的 改善 是 显而易见 的 ， 可 以 在 图 8-10 
中 看 到 。 
可 以 观察 到 在 矩阵 4 中 ， 由 于 扰动 解 的 敏感 性 。 即 表 8-1 中 给 出 扰动 ， 利 用 在 A.2.15 节 方 
fe (A115) 所 提出 的 关系 ,方程 (A.115) 如 下 : 
|All 


lAxl lAa]; 8-77) 
Jer a 网 l 


其 中 , 式 (A107) 给 出 的 4 的 条 件数 可 以 表示 为 cond(4)， 也 就 是 4 最 大 奇异 值 与 最 小 值 的 比 
率 。 考 虑 这 个 问题 得 到 的 结果 ， 式 (8-77) 右边 计算 的 结果 为 1.8494。 左 边 使 用 MATLAB 方 





w 
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法 得 出 的 结果 是 0.3105， 而 使 用 神经 计算 方法 的 结果 是 0.0940。 因 此 ， 不 等 式 是 满足 的 ， 这 些 
结果 再 一 次 说 明了 和 鲁 棒 神经 计算 方法 可 以 得 到 更 好 的 结果 。 


表 8-1 使 用 均匀 分 布 随机 产生 的 扰动 作为 脉冲 噪声 干扰 例 8.3 中 和 矩阵 4 随机 选择 的 元 素 


阵列 索引 ii 阵列 索引 





|x, — xM] 





解 向 量 分 量 


图 8-10 相对 于 真 值 系 统 解 的 受 干 扰 系 统 的 MATLAB 求 解 的 剩余 误差 与 相对 于 真 值 系 
统 解 的 受 干扰 系统 的 鲁 棒 神 经 计算 求解 的 剩余 误差 对 比 图 l 


8.7 带 病 态 确定 数值 秩 的 不 适 定 问题 的 正则 化 方法 
寻求 下 式 的 解 
Ax=b (8-78) 
Hep, AER”, ER, FER"  ， 且 六 二 1， 惩 阵 4 可 能 是 病态 的 ， 且 拥有 病态 确定 数值 秩 
[25]。 也 就 是 ，4 的 奇异 值 在 频谱 中 设 有 确定 间隙 的 情况 下 向 0 衰减 。 因 此 ， 讨 论 的 焦点 是 病 
态 的 最 小 二 乘 问题 。 这 类 问题 在 许多 不 同 的 情况 下 出 现 ， 例 如 ， 第 一 类 弗 雷 德 霍 姆 
(Fredholm) 积分 方程 组 的 数值 解 ， 这 是 不 适 定 问题 的 经 典 例子 。 求 解 病态 问题 有 几 种 方法 可 
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以 选择 ， 例 如 ， 截 断 的 QR (因子 分 解 ) 正则 化 [38]， 截 断 的 奇异 值 分 解 (SVD) 正则 化 {39- 
41]， 以 及 阻尼 最 小 二 乘 或 者 Tikhonov 正 则 化 [42-53]。 我 们 将 主要 讨论 Tikhonov 正 则 化 方法 。 

最 初 在 式 (8-12) 中 ， 定 义 的 标量 代价 (HER) 函数 ， 为 式 (8-78) 的 最 小 二 乘 解 创造 了 条 
件 ， 如 下 


& (x)= lx -bÈ (8-79) 


计算 相对 于 x 的 式 (8-79) 的 梯度 ， 令 结果 等 于 0， 导 出 式 (8-14) 中 的 正规 方程 ， 重 复 如 下 
A’Ax—A'b=0 (8-80) 
将 采用 与 式 (8-15) 稍微 不 同 的 方式 求 式 (8-80) 的 解 。 式 (8-15) 采用 了 Moore-Penrose 逆 
进行 求解 。 这 里 采用 4 的 奇异 值 分 解 (SVD) (参照 A.2.14 节 ) ， 也 就 是 
A=USV' (8-81) 
在 A.2.14 节 中 ， 通 过 式 (8-80) 中 的 正规 方程 用 4 的 奇异 值 分 解 (SVD), RER (8-78) 最 
小 二 乘 解 ， 可 以 写作 


n T 
x=VS'U'b = orm (8-82) 


如 果 4 是 不 满 秩 的 ， 也 就 是 ，p(4) < n， 此 时 式 (8-82) 中 的 求 和 极限 一 定 会 影响 到 年 阵 4 的 
实际 的 秩 。 假 如 令 p(4) = < 和 2， 此 时 式 (8-82) 可 以 写作 如 下 形式 


k T 
x, = VS'U'b = > vi» (8-83) 
i CT 


考虑 方程 (8-83) 采用 了 截断 的 奇异 值 分 解 《TSVD) 方法 ，K 作 为 截断 参数 〈 作 用 同 
Tikhonov 正 则 化 方法 中 的 入 相似 [39]) 。 当 年 阵 4 具 有 病态 的 确定 数值 秩 时 ， 该 方法 的 问题 就 会 
出 现 了 。 也 就 是 ， 和 矩阵 4 的 奇异 值 在 频谱 中 没有 定义 间隙 的 情况 下 向 0 衰减 。 

现在 定义 -- 个 正则 化 能 量 函 数 ， 写 作 


. 1 2 入 
6 (x)= lAr- ob, + Ib (8-84) 


其 中 入 > 0 是 定义 为 自 则 化 参数 的 自由 参数 。 它 控制 着 正则 化 求解 过 程 中 的 “平滑 度 ”。 我 们 寻 
求 问 题 min&g(z) 的 解 x = x,。 能 量 函 数 中 的 额外 项 伴随 着 标准 的 误差 项 一 起 最 小 化 了 ,也 就 是 ， 
1/2\|Ax=d|j, BAM 7/2) | |x|} 称 作 平 滑 度 约束 ， 也 指 稳定 器 能 量 。 计 算式 (8-84) 关于 zx 
的 梯度 ， 然 后 将 结果 置 为 零 ， 就 可 以 推导 出 “修正 的 ”正规 方程 组 如 下 

` (ATA + Dx = Ab (8-85) 
式 (8-85) 中 的 基本 结果 就 是 正则 化 矩阵 4 = 474 一 和 I 的 条 件 ， 也 就 是 ， 对 应 于 4 4 的 条 件数 
入 的 条 件数 。 可 以 很 直接 地 表示 和 矩阵 4 的 条 件数 如 下 
oth 


2 2 
Onin tA 


HP, Ona AMO ind BE REA ERA A FH. BARN, RERA RAR ay FH 9D ll 
Ena = WAKO nin = 0.1， 那 么 474 的 条 件数 就 是 2 300。 如 果 正 则 化 参数 设置 为 = 1/V2 ， 则 式 


cond(4) = (8-86) 
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(8-86) 中 的 矩阵 4 的 条 件数 就 是 50。 因 此 ， 正 则 化 参数 通过 因数 50 改 善 了 ( 减 小 ) 条 件数 。 我 
们 打算 再 次 利用 奇异 值 分 解 ， 确 定式 (8-85) 的 解 。 将 式 (8-81) 代入 式 (8-85)， 从 而 得 到 

(VST SV’ + Dx = VST U" b (8-87) 
通过 对 式 (8-87) 两 边 首先 左 乘 Y ， 然 后 再 乘 (S'S) (假定 此 时 和 矩阵 4 是 满 秩 的 ， 从 而 矩阵 4 
的 逆 存 在 )， 最 终 再 乘 V， 得 到 

[I + XV(STS) 'V" ]x = VS*U'b (8-88) 
其 中 ，5' 是 矩阵 5 的 转 置 矩 了 泗 ， 伪 对 角 线 上 为 非 零 奇异 值 的 倒数 (参照 A.2.14 节 )。 式 (8-88) 
左 侧 可 以 写作 如 下 


n n T 
[1+ AVS S) V" jx = [Sew +h > “ts 


i 





(8-89) 
n x T T 
“> 1+ |u x=VEV"x 
= O; 
其 中 
2 
4 0 0 0 
ON 
2 
0 .03 乞 0:… 0 
z= o, (8-90) 
2 
0 0 0 H 


因此 ， 利 用 式 (8-89), 方程 (8-88) 可 以 写作 
VSV” x=VS*U"b (8-91) 
通过 对 式 (8-91) WAK AERV, BID, RIV, A 





x, =VE'S'U'b=V| 0 0 |u% (8-92) 


或 者 


n 


vu; b 
多 o, +) /o, 





(8-93) 








n o? \ vul 
C (94) 
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如 果 定 义 
B AuzB (8-95) 
那么 式 (8-94) 也 可 以 写作 如 下 


S/B 
rA (8-96) 


从 式 (8-94) 或 者 式 (8-96) 的 结果 中 可 以 观察 到 : 

1. 如 果 正 则 化 参数 置 为 0， 也 就 是 = 0， 那 么 式 (8-94) 可 以 归纳 出 式 (8-82) 中 的 结果 ， 
即 zo = 3 [Cu /o;) ble 

2. 对 于 正则 化 参数 和 > 0 在 已 定义 范围 内 的 值 ， 利 用 式 (8-94) 可 以 推导 出 一 系列 的 解 。 
理想 的 情况 是 定义 一 个 标准 ， 从 而 可 以 从 一 系列 容许 的 解 中 选择 一 个 合适 的 解 。 一 种 方法 可 
以 用 于 合适 解 的 选择 ， 就 是 上 曲线 方法 [44, 46, 50, 52]， 也 就 是 Tikhonov 参 数 4 的 选择 。 其 他 的 
方法 可 以 在 [53-55] 找 到 。 

3. 如 果 4x = 5 中 的 5 没有 受到 干扰 ，4 是 病态 的 ， 且 具有 病态 确定 数值 秩 ， 那 么 它 就 满足 
离散 皮卡 (Picard) 条 件 (DPC) [45, 48, 53]， 当 且 仅 当 |wib| 较 之 奇异 值 0，( 其 中 i = 1, 2，…， 
n) CEH) 衰减 到 0 更 快 ， 也 就 是 序列 

alo] ed uo 


Oo 0, o 


(8-97) 
是 (对 大 部 分 情况 而 言 ) 单调 减少 。u; 是 矩阵 4 的 左 奇异 向 量 。 

4. 正则 化 方法 在 4 的 范围 内 对 可 能 解 施加 了 一 个 弹 的 平滑 度 约 束 。 对 比 式 (8-94) 和 式 
(8-82) ， 发 现 正则 化 参数 ^ 的 作用 是 缓冲 或 者 过 滤 掉 奇异 值 之 和 小 于 和 近似 值 的 项 。 在 实际 应 
用 中 ， 正 则 化 参数 将 满足 以 下 不 等 式 


O, SASO, (8-98) 
可 以 定义 过 滤 因 数 如 下 
o? . 
WA= ae (8-99) 
其 中 = 1 2, …, n。 因 此 ， 使 用 式 (8-99), 方程 (8-94) 可 以 写作 如 下 形式 
_ Seay vee (8-100) 
x, df 6 b 


当选 取 合 适 的 Tikhonov 参 数 时 ， 式 (8-99) 中 的 过 滤 因 数 可 以 认为 趋 近 于 0， 即 ， 来 自 较 小 的 
o; 的 解 x; 的 作用 (B,/o,) v, (EBB, = ub) 被 过 滤 掉 了 。 当 DPC 不 成 立时 ， 这 将 具有 消除 解 
中 误差 污染 的 效果 。 当 ac < 时， 较 小 的 奇异 值 的 过 滤 功 能 开始 起 作用 。 另 一 种 方式 可 以 写作 
如 下 








在 式 (8-94) 中 有 
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并 且 考 虚 当 某 个 奇异 值 0; 小 于 4 很 多 的 情况 。 此 时 ， 当 o; 一 0， 可 以 得 到 (使 用 LH6pital 规 则 ) 
i/o 
lim ayy Be = lim Pv =0 对 于 G << 入 (8-101) 
因此 ， 在 式 (8-94) 总 和 中 相关 项 将 接近 于 0， 假 设 在 奇异 值 分 解 (SVD) 总 和 中 的 项 具有 合 
适 的 过 谈 或 者 自然 截断 ， 这 表明 对 于 一 个 真实 的 物理 系统 ， 需 要 其 解 具有 连续 性 。 
Tikhonov 正 则 化 方法 的 一 种 变化 包括 形式 如 下 式 的 能 量 函 数 


, 1 2 X 
& (x)= 5l4z - bj} + Flext, (8-102) 


FOAL TEER. FARE min 4 (x) 的 解 x = x, 。 正 则 化 矩阵 可 以 采用 导数 算 子 的 离散 


近似 值 ， 一 般 情 况 下 L, ER"”"， 其 中 p 是 导数 的 阶 数 ， 并 且 p(L, ) = n 一 p。 例 如 ， 一 阶 导 数 
和 矩阵 如 下 


-1 1 0 0 0 
0-1 100 0 
L=|0 0 -1 10 + 0 (8-103) 


且 二 阶 导 数 和 矩阵 可 以 写作 


1-2 1 0 0 
0 1 -2 1 0 0 

L, =|0 0 1 -2 1 0 0 ( 8-1 04) 
0 0 0 0 1 -2 1 


(t-2)xn 
对 于 x 最 小 化 式 (8-102) ( 即 ， 计 算式 (8-102) 关于 x 的 梯度 并 令 结 果 等 于 0) 将 会 导出 另 一 
系列 经 修正 的 正规 方程 如 下 

(AA + XL L)x = A'b (8-105) 
正如 前 面 求解 L = 1,， 在 只 使 用 4 的 奇异 值 分 解 的 情况 下 ， 打 算 对 不 同 的 4 值 求解 式 (8-105) 。 
但 是 ， 这 不 可 能 有 结果 。 存 在 两 种 设计 好 的 方法 求解 这 个 问题 ， 转 化 成 标准 的 正则 化 问题 以 
及 使 用 广义 的 奇异 值 分 解 (GSVD) [25]。 关 于 这 两 种 方法 的 综述 请 见 Varah[38] 和 Hansen[46] 
的 相关 论文 。 

例 8.4 在 矩阵 4 是 病态 时 ， 对 比 使 用 截断 的 奇异 值 分 解 (TSVD) 方法 与 Tikhonov 正 则 化 
方法 求解 4x = 5 的 结果 。 令 和 矩阵 4 是 一 个 20 x 20 希 尔 伯 特 (Hilbert) 矩阵 (参照 A.2.19 节 )， 
其 中 元 素 由 式 a;j = 1(i+j 一 1 给 出 ,i,j= 1,2,…, n(n = 20)。 因 此 ， 

1/1 1/2 te I/n 
1/2 1/3 =- 1/⁄n+1) 


(8-106) 
ljn iKn+D … 1/⁄2n+)) 


为 了 评估 由 以 上 两 种 方法 得 到 的 结果 的 质量 ， 做 一 个 有 意义 的 对 比 ， 我 们 设计 一 个 已 知 的 
(精确 的 ) 求解 方案 
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xj) = 0.57 j=1,2,.…,20 (8-107) 


因此 ， 利 用 式 (8-106) 的 矩阵 4 以 及 式 (8-107) 中 的 x.， 向 量 5 可 以 写作 bp = 4x。( 使 用 MATLAB 
得 到 的 ) 矩阵 4 的 条 件数 是 cond(4) = Oma (A)/Omin (4) = 1.0675 x 10"， 同 时 求 得 秩 为 ph) = 13。 

首先 使 用 TSVD 方 法 求解 。 回 忆 在 正则 化 方法 中 ， 试 图 寻求 解 x-， 从 而 使 |jxll; 与 |4x 一 中 
一 同 相对 较 小 。 图 8-11a 描 述 了 x 相对 于 SVD 截 断 参 数 k (WK (8-83) (k= 1, 2, =, 20)) 的 
工 范 数 ， 即 llxi 届 的 图 。 在 图 中 看 到 曲线 是 相对 平 直 的 ， 直 到 (包括 ) k= 14， 在 k = 14 后 曲线 
迅速 上 升 。 在 上 = 14 处 的 转角 把 曲线 分 成 了 两 部 分 。 在 图 8-11a 中 ， 曲 线 左 侧 的 部 分 (通常 地 
相当 于 信号 ) 相对 平 直 ， 而 右边 的 部 分 (相当 于 嗓 声 ) 非常 陡峭 。 曲 线 乎 请 的 部 分 符合 ||xe ||: 
的 值 极 其 接近 于 x, WIL, 范 数 ||x.||。 因 此 ， 可 能 尝试 使 用 一 个 上 = 14 的 截断 参数 。 实 际 上 最 小 
的 相对 误差 出 现在 k = 11 处 。 在 图 8-11b 中 ， 以 相对 误差 和 截断 参数 为 坐标 绘制 。 因 此 , k= 11 
是 使 用 TSVD 的 截断 参数 最 好 的 值 ， 同 时 ， 相 对 误差 如 下 给 出 


g 104 F 104 
R R 
2 10 gi 
s Şa 10 
F 10 AE 
= Š 102 
10! 
10°4 
10° 10°6 
© 2 4 6 8 10 12 14 16 18 20 0 2 4 6 8 10 12 14 16 18 20 
SVD 截 断 参 数 K SVD 截 断 参 数 k 
a) b) 
ony 10? w 10? 
R 家 
2 
= ， = 100 
10 
未 sl oo 
= L E 10 
10! S 
104 
10° 10-6 
-5 0 5 10 15 20 25 30 35 40 45 -5 0 5 10 15 20 25 30 35 40 45 
In(1/A) In(1/A) 
c) d) 


图 8-11 a) x, HIL, 范 数 (IIx, lld 对 比 TSVD 方 法 的 SYD 截断 参数 k (k = 1, 2, +, 20); b) 对 比 
TSVD 方 法 截断 参数 k 的 相对 误差 ，c) x, AOL, 范 数 (lx, IL) 对 比 Tikhonov 正 则 化 方法 中 
的 In(1/) (4 为 正则 化 参数 )，d) 对 比 Tikhonov 正 则 化 方法 中 的 In(1/A) 的 相对 误差 


Ix, 一 x,| 
2 


| =4.735 258 615 542 855x10“ (8-108) 
x 
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对 于 Tikhonov 正 则 化 方法 ， 必 须 对 正则 化 参数 入 生成 值 的 范围 。 为 4 ~ 之 间 的 4 赋值 。 
令 和 = Ona ANWAR A, < max {Omin (A), Oma (A) . cj}， 其 中 e 是 机 器 舍 入 修整 单元 。 在 MATLAB 
中 ， 它 被 选取 为 eps = 2 ”= 2.220 446 049 250 313 x 10-*。 使 用 MATLAB 内 建 函 数 sva 计 算 
的 矩阵 4 的 奇异 值 如 表 8-2 所 示 。 要 求 一 个 Z= 100 个 点 的 “网 格 ”"，2 的 两 个 端点 为 和 = o = 
1.907 134 720 407 253 以 及 = 加 eps/100 = 4.234 689 755 316 386 x 10-18。 余 下 的 98 (7—2) 
个 点 ， 也 就 是 入 一 和 -可 以 从 下 式 中 得 到 [50，53] 


(gq-DAL-D 
| 


A, -人 (8-109) 


对 于 这 100 个 4 值 ， 利 用 式 (8-94) 可 以 产生 100 个 “ 解 "?。 图 8-11c 描 述 了 x 的 ER (BP |b) 
与 In(1/4)。 注 意 这 条 曲线 同 应 用 TSVD 方 法 的 图 8-11a 很 相似 。 同 样 可 以 发 现 ， 曲 线 的 平滑 部 
分 对 应 的 ||x; ||, 的 值 同 x. 的 L; FER (IIx. |) 很 接近 。 图 8-11d 描 述 了 对 比 Tikhonov 正 则 化 方法 
中 的 ln(1/4) 的 相对 误差 。 图 中 显示 的 明确 定义 的 最 小 值 对 应 于 景 优 的 正则 化 参数 和 A。 = 
3.245 947 737 964 136 x 10- 以 及 相对 误差 








Ix, -Xel 


=2.673 028 585 143 722x10“ 


Andy 





(8-110) 

















Xall 


这 一 结果 比 式 (8-108) 的 TSVP 方 法 的 相对 误差 好 一 些 。 注 意 最 优 正则 化 参数 位 于 奇异 值 11 ~ 
12 之 间 ， 见 表 8-2。 因 此 ， 式 (8-94) 中 全 部 的 过 滤 项 在 这 一 值 后 会 出 现 ， 因 为 奇异 值 12 ~ 20 
比 和 小 。 


表 8-2 使 用 MATLAB (5.1 版 ) 内 建 函数 svdq 计 算 的 和 矩阵 4 的 奇异 值 















i 

1 1.907 134 720 407 253 ? 2.192 890 048 019 410 x 107" 
2 4.870 384 065 720 490 x 107! 12 6.740 801 127 335 105 x 107" 
3 7.559 582 130 544 090 x 10°? 13 1.738 400 044 807 469 x 107" 
4 8.961 128 614 856 439 x 1073 14 3.740 758 559 585 443 x 107 '° 
5 8.676 711 091 714 799 x 10 15 1.704 893 499 875 155 x 107" 
6 7.033 431 473 193 232 x 107° 16 1.464 577 158 596 144 x 107" 
7 4.830 510 048 804 696 x 107° 7 9.694 815 980 744 144 x 10° '8 
8 2.827 652 055 224 344 x 1077 18 8.115 826 272 543 485 x 10 
9 1.413 954 758 555 360 x 107° 19 1.760 134 198 986 154 x 107'8 
10 6.036 095 327 608 074 x 107" 20 1.786 569 618 132 934 x 107" 





注 ，@ 为 TSVD 方 法 保留 的 奇异 值 的 最 优 数 。 


如 果 使 用 MATLAB 内 建 的 函数 pinv 计 算 和 矩阵 4 的 伪 逆 ， 再 计算 4x = 5 的 解 ， 也 就 是 x*” = 
Pinv(4)b， 此 时 ， 结 果 的 相对 误差 就 是 


þe” -Xe 3 
———2 = 2,330 150 590 018 773x10- 








(8-111) 











em 


这 一 结果 相对 于 使 用 TSVD 方 法 以 及 Tikhonov 正 则 化 方法 的 相对 误差 要 差 3 个 数量 级 。pinv 计 
算 和 矩阵 4 的 伪 逆 实际 使 用 的 方法 是 SVD。 用 作 截 断 奇异 值 的 默认 的 公差 值 (小 于 公差 值 ) 可 以 
通过 max (size(A))*norm(A)*eps 进 行 计算 。 因 此 ， 这 样 的 问题 默认 的 公差 值 是 
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20*0, *eps = 8.469 379 510 632 772 x 10- 5。 在 表 8-2 中 ， 这 一 默认 的 公差 值 分 布 在 奇异 值 13 一 14 
之 间 。 因 此 ， 在 式 (8-83) 中 总 共 使 用 13 项 去 计算 解 x” 。 通 过 MATLAB 的 rank 函 数 ， 应 用 
相同 的 默认 公差 值 基 于 和 矩阵 4 的 SVD 确 定 4 的 秩 。 


8.8 求解 线性 方程 组 的 离散 时 间 迁 代 方 法 中 的 矩阵 分 列 
存在 四 种 基本 的 选 代 离散 时 间 方 法 来 解 如 下 形式 的 线性 方程 组 
Ax=b (8-112) 


FOP BREACH" 是 基于 矩阵 分 裂 [25，29，56-58]。 当 且 仅 当 和 矩阵 4 是 非 奇 异 的 ， 解 向 量 x 存 
在 并 且 是 唯一 的 。 所 有 的 方法 都 具有 基本 形式 


Mx(k + 1) =Nx(k) + b (8-113) 
其 中 k 是 离散 时 间 指 数 。 可 以 把 矩阵 4 表达 成 矩阵 的 和 
A=D-E-F (8-114) 


其 中 9 DER"*” EHER, 也 就 是 ， d= diag[a,,, a *"*5 Ann l, EEMR"”" 与 FEM”" 分 别 是 严 
格 的 下 三 角 和 矩阵 和 上 三 角 和 矩阵 。 和 矩阵 E 和 F 的 元 素 是 矩阵 4 相应 元 素 的 负数 ， 分 别 对 应 于 和 矩阵 A 
主 对 角 线 的 下 上 部 分 。 阜 阵 妈 的 全 部 对 角 元 素 假设 为 非 零 。 


雅 可 比 迭 代 方法 
将 式 (8-114) 代入 式 (8-112)， 有 
(D-E—-F)x=b (8-115) 
分 型 成 
Dx=(E+F)x+b (8-116) 
式 (8-116) 的 选 代 方案 可 以 写作 如 下 
Dx(k +1) = (E + F)x(k) + b (8-117) 


因此 ， 根 据 式 (8-113), M = D 以 及 N =E +F. WAERED ACHES, TUER (8- 
117) 写作 
x(k + 1) = D"'(E + F)x(k) + D`'b (8-118) 
FEPK>O, OARA REE. BR AL Te ESN RT rk A [56], TAHEA 
THER 
B=D E+F) (8-119) 
PIE TIe, A (8-118) 的 标量 形式 可 以 写作 


n(ken=-¥ (2) 5442 (8-120) 
fat \ Ai Gi 
jmi 


Hp, l<i<n, k>0, 已 知 的 初始 条 件 为 x; (0)。 从 式 (8-120) 中 看 到 ， 一 般 情 况 下 ， 当 计算 
向 量 x(k + 1) 的 元 素 时 ， 所 有 的 向 量 x(k) 的 元 素 必 须 保存 。 但 是 ， 使 用 解 向 量 x 的 元 素 x; 的 最 
近 估 计 x;(k + 1)， 进 行 随后 的 计算 似乎 是 有 道理 的 。 这 样 就 导出 了 这 一 类 中 的 第 二 种 方法 。 
高 斯 一 赛 德尔 迭代 法 
MK (8-115) (D-E-F )x =5 开 始 ， 对 表达 式 重 排 ( 即 ， 拆 分 ) 会 有 


we 
© 





w 


274 RORI APEH A 


(D-E)x=Fx +b (8-121) 
RH, D—ER— PEAS TEER, Mak (8-121) 可 以 得 到 选 代 方 案 如 下 
(D—E)x(k + 1) = Fx(k) + b (8-122) 
或 者 
x(k + 1) = (D-E) 'Fx(k) + (D-E) 'b (8-123) 


其 中 , k>0, HOM MMR EAO), HER (8-122) HK (8-113) 可 得 ，M =D- 
EWEN = F, XE R REER BM BRE RAR [56], BEC = (D-E) 'F BRIER 
Mi RAE REM. REBAR A ERREA S MDxlk + 1) = Ex(k + 1) + Fx(k) +b 
以 及 下 式 


gd j” j 
Gi; Jat ii j=i+) i 


i~i n 
zk+D=- 工 ax kk+D- 工 Sax (8-124) 
a;; 


其 中 ， 1<in, k20, 初始 条 件 为 x; (0), 


RAGA Fei RE 
在 逐次 超 松弛 (SOR) 迭代 法 的 情况 中 ， 可 以 把 矩阵 4 分 裂 成 
A=M,-—N,=D-E-F (8-125) 
其 中 
M, = LD- owE) (8-126) 
w 
以 及 
N, = {0 -0)D+0F] (8-127) 


参数 mw 称 作 松弛 因数 。 因 此 ， 将 式 (8-126) 以 及 式 (8-127) RAR (8-113) 可 得 
ED-oB)x(k+D)= ToD+ ope(k)+b (8-128) 


A (8-128) 两 边 同 乘 以 wo， 然后 ,两 边 同 时 左 乘 以 D ' 可 得 
(TI—- wD E(k + 1)=[(1—- 0) + wD 'F]x(k) + wD™'b (8-129) 
现在 定义 LAD"'E (严格 下 三 角 和 矩阵 ) UR UAD'F (严格 上 三 角 和 矩阵 ) ， 然 后 将 它们 代入 式 
(8-129) 可 得 
(T— wh)x(k + 1) = [((1 — wM + wU ]x(k) + wD 'b 
两 边 同 时 左 乘 以 (一 oz) ， 推 导出 
x(k + 1) = (I-— oD (oO + wU l]x(k) + o — wh) 'D 'b (8-130) 
其 中 上 >0， 且 已 知 的 初始 条 件 向 量 为 x(0)。 方 程 (8-130) Æ ARER EKKISORERY È 
[56]. JERE 
E(w) =- oLD A-o oU] (8-131) 
PIRRE, MRA FOS osl RE, WEI BRERA, BE, mko l, 
就 称 作 超 松 弛 。 注 意 ， 如 果 松 弛 因数 置 为 w = 1， 那 么 式 (8-130) 就 可 以 转化 成 式 (8-123) 
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中 向 量 矩 阵 形式 的 高 斯 - 赛 德尔 方法 。 标 量 形式 的 SOR 选 代 方法 可 以 从 式 (8-128) 推导 出 ， 
写作 Dx(k + 1) = wEx(k + 1) + (1—@)Dx(k) + wFx(k) + wb。 标 量 形式 的 SOR 迭 代 方 法 可 以 
写作 

td- Bord Says] + ao (8-132) 


Kh, l<i<n, 大 >0， 同 时 已 知 的 初始 条 件 为 (0)。 图 8-12 描 述 了 利用 SOR 迭 代 方 法 实现 的 
神经 网 络 体系 结构 。 





图 8-12 使 用 SOR 和 迭代 方法 的 线性 神经 网 络 体系 结构 
使 用 式 (8-131) 中 的 逐次 松弛 矩阵 的 定义 ,方程 (8-130) 可 以 写作 


x(k + 1) = (xk) + Rb (8-133) 
其 中 RAwU-oL)'D" 。 现 在 定义 误差 向 量 如 下 
e(k)=x(k)—x  k>0 (8-134) 


其 中 ，x 是 式 (8-112) 唯一 的 向 量 解 。 对 于 这 个 误差 ， 从 式 (8-133) 可 以 导出 一 个 齐 次 误差 
差分 方程 

elk + 1) = Z (welk) (8-135) 
可 以 选择 松弛 因数 w 来 最 小 化 c. (F (w)]， 从 而 使 得 x(k) 尽 可 能 快 地 [58] 收 敛 于 ， 其 中 0o,(:) 
EZ (wo) 的 谱 半 径 (参见 A.2.13 节 )。 松 弛 因数 的 最 优 值 称 为 0"。wew? 的 计算 一 般 是 很 困难 的 ， 
除了 在 简单 情况 下 。 通 常情 况 下 ， 通 过 尝试 w 的 不 同 值 观察 对 收敛 速度 的 影响 ， 从 而 近似 确定 
w*。 即 使 考虑 计算 wr 的 问题 ， 这 样 的 努力 还 是 值得 的 ， 因 为 这 一 结果 极 大 地 提高 了 x(k) 收敛 
到 x 的 速度 。 
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理 查 森 选 代 方 法 
另 一 种 可 以 考虑 用 于 求解 方程 组 的 欠 代 技术 是 理 查 森 (Richardson) 选 代 方 法 [57]。 基 本 
思想 就 是 迭代 ， 直 到 解 的 离散 时 间 近 似 值 的 一 阶 导数 的 负数 接近 于 0， 也 就 是 ， 
-xD 7 XE) © ax(k)-b (8-136) 


Hrhe(k) = Ax(k)-bUARk>0, Ad BeBe kA 


x(k + 1) = x(k) — B(A)[Ax(k) — b] (8-137) 
其 中 B= PB(k)，x(0) 是 已 知 的 初始 条 件 向 量 ， 最 优 近 代 参 数 可 以 如 下 [8] 确 定 
_ e (kelk) 
PO = Ae (8-138) 


可 以 从 式 (8-137) 中 的 向 量 矩 阵 形式 推导 出 标量 形式 的 理 查 森 迭代 方法 如 下 
Re $ a0- (8-139) 


Hl <i<n, k>0, 已 知 初始 条 件 为 x; (0)。 如 果 选 择 式 (8-139) PABA) = Vaz, ATAPI 
代表 达 式 写作 如 下 形式 


saD- Sax 5 (8-140) 
也 可 依次 写作 
16K +1)= =) (2) (042 (8-141) 


其 中 1<i<n, 大 >0， 已 知 初始 条 件 为 5(0)。 实 际 上 这 正 是 式 (8-120) PA HARA LIAR. 
例 8.5 ”对 比 本 节 所 提 到 的 求解 4x = 8 形式 的 线性 方程 组 的 四 种 方法 中 的 三 种 的 性 能 。 在 
这 个 例子 中 系统 如 下 


65 5 6) [55 
5 9 4 3| |47 
5 4 10 sl” 163 (8-142) 
63.5.7) |55 


EA BEA RRRA HK /|[cond(A) = 394.874 2]， 因 此 ， 式 (8-142) 中 的 方程 组 可 以 使 用 


MATLAB 中 的 inv 函 数 求解 。 结 果 如 下 
1.0000 
M inv(A)'b = 2.0000 8-143 
x = invA) b= |30000 (8-143) 
4.0000 


逐次 超 松弛 和 迭代 法 需要 确定 松弛 参数 w 的 最 优 值 。 根 据 本 节 提 及 的 SOR 方 法 的 计算 过 程 ， 必 须 求 
解 作为 w 的 函数 的 or LZ (ow] 的 最 小 值 。 图 8-13a 描 述 了 作为 w 的 函数 的 cr LA (办 ] 的 图 ，w 值 的 分 
布 范围 如 下 : O<@<2.5, HAw= 1/10 000。 定 义 好 的 最 小 值 导出 了 由 ax = 1.721 5 给 出 的 松弛 参 
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数 的 最 优 值 。 三 种 方法 都 使 用 同样 的 初始 条 件 : x(0) = [0.011 8, 0.031 5, 0.144 4, 
一 0.035 1 了。 这 些 初始 条 件 通 过 从 均值 0 以 及 方差 为 0.01 的 高 斯 分 布 中 选 定 4 个 随机 数 来 产生 。 利 
用 由 图 8-13a 确 定 的 松弛 参数 的 最 优 值 ， 使 SOR 算 法 得 以 进行 ， 同 时 图 8-13b 反 映 了 收敛 的 情况 。 
整个 算法 进行 了 115 次 迭代 才 收敛 。 和 迭代 终止 的 准则 确定 为 : 当 绝对 误差 小 于 10-”( 也 就 是 ， 
lx? — x" |2 < 1077) 达到 收敛 。 图 8-13c、d 分 别 描述 了 使 用 理 查 森 以 及 高 斯 - 赛 德尔 方法 解 式 
(8-142) 的 收敛 图 。 为 了 合理 地 对 比 所 有 的 结果 ， 这 些 方法 都 使 用 共同 的 结束 准则 。 表 8-3 总 结 
了 仿真 结果 。 从 表 8-3 中 ， 我 们 发 现 SOR 和 迭代 方 法 得 到 了 最 好 的 结果 ， 也 就 是 最 快 地 达到 收敛 。 
对 比 SOR 结 果 与 次 优 的 结果 (高 斯 - 赛 德尔 方法 ，w= 1) ， 我 们 发 现 SOR 方 法 收敛 速度 快 约 10 倍 。 


SOR 方 法 
(w= 1.7215) 


a,[2(w)] = max |A] 
解 向 量 的 分 量 


Min: 0.8092 
(w° = 1.7215) 





0 20 40 60 80 100 120 
CR 





w 
a) b) 
5 
4.5 高 斯 - 赛 德 尔 方法 
4 
3.5 
ae 3 
g 25 rs 
E 
$H ?2 i 
E 15 E 
= 1 EE 3 
0.5 
0 
-0.55 500 1000 1500 2000 2500 3000 3500 0 200 400 600 800 1,000 1,200 
迭代 数 ARR 
c) d) 


图 8-13 a) 逐次 松弛 矩阵 o; [Z o] 谱 半 径 对 松弛 因数 中 ， 确 定 w 最 优 值 的 图 。 图 中 ， 最 小 值 
发 生 在 or = 1.7215，b) 使 用 SOR 方 法 求解 式 (8-142) 的 收敛 图 ，c) 使 用 理 查 森 方法 
求解 式 (8-142) 的 收敛 图 ，d) 使 用 高 斯 一 赛 德尔 方法 求解 式 (8-142) 的 收敛 图 


表 8-3 ”使 用 三 种 方法 求解 式 (8-142) 的 仿真 结果 对 比 (MATLAB 5.1) 





_ 

方 法 绝对 误差 |x 一 x 相对 误差 B l, 收敛 所 需 的 选 代 次 数 
逐次 超 松 驰 (oz = 1.7215) 2.1999 x 1078 4.0165 x 107° 115 
mie 5.3028 x 10-s 9.681 6x 107° 1 100 
PRA 2.7619 x 1078 5.042 6x 107° 3 400 


雅 可 比 发 散 发 散 发 散 
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8.9 总 体 最 小 二 乘 问题 


如 果 误 差 被 限制 在 4r = 8 系统 的 5 向 量 ， 那 么 一 般 的 最 小 二 乘 方法 就 适宜 用 于 求解 系统 。 
然而 ， 如 果 误 差 不 仅 发 生 在 数据 矩阵 4 中 ， 而 且 包 括 观 察 向 量 5， 那 么 就 可 以 利用 总 体 最 小 二 
KR (TLS) {25, 59-62] 法 推导 出 解 x。 一 般 情况 下 假定 数据 矩阵 4 并 未 被 误差 于 扰 是 不 现实 的 。 
更 现实 的 做 法 是 假设 4 确实 包含 误差 ， 因 为 更 多 时 候 和 矩阵 4 中 的 数据 是 由 已 经 遭受 噪声 干扰 的 
测量 数据 组 成 的 。 这 些 测 量 噪声 可 能 是 由 负责 收集 数据 的 实际 设备 本 身 产生 的 (BD, MA). 
建 模 误差 以 及 量化 误差 也 有 可 能 干扰 数据 和 矩阵。TLS 方 法 的 主要 原则 可 以 通过 首先 重新 用 公 
式 形式 表示 标准 最 小 二 乘 问题 来 引入 [25]。 

最 小 二 乘 问题 的 一 种 不 同 观点 


考虑 如 下 式 的 包含 m 个 线性 方程 的 超 定 组 
Ax~b (8-144) 
Ant? Ke, BAER", DER", xER'™', Hm>n, Bh Hew 
Minimize llb- bil, (8-145) 
受 限 于 bE RA) (8-146) 
其 中 .92(4) 是 矩阵 4 的 范围 8 。 向 量 $ 由 下 式 给 出 
b=b-é (€LA%) (8-147) 
其 中 
e=b—Ax (8-148) 
以 及 
RRR RAMA bA A =0 (8-149) 
Er LOTEA A) 上 的 正 交 投影 。 因 此 ， 从 式 (8-147) 中 我 们 看 到 
@=b-b (8-150) 


同样 ， 由 式 (8-149), BEPA) =n, BIRRE = (474)-I475 (满足 minimize ll Ax — b lh, HIM 
一 解 )， 等 式 两 边 左 乘 以 矩阵 4 可 以 得 到 


Ax = A(A"A) 'A"b (8-151) 
由 式 (8-148) 和 式 (8-150) AX=5, LABS (8-151) 可 以 写作 B = 4(474)-1475。 因 此 有 ， 
b=P,b (8-152) 

以 及 
忆 =4(474)-147 (8-153) 


BER (A) 上 的 正 交 投影 算 子 。 因 此 ，5 是 b 在 Z (4) 上 的 正 交 投影 。 如 果 p(4) <n, BAR 
小 二 乘 问题 minimjzell4x — bl, 有 无 确定 数目 的 解 。 但 是 ， 为 了 稳定 性 和 最 小 灵敏 度 ， 拥 有 最 
小 已 范 数 的 唯一 解 是 从 最 小 值 的 集合 中 选 出 来 的 [59] 


O WANE MEL: BA) = (yer :了 = Axi E xrER 
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B= {xER"™': ||Ax— blj, =min} (8-154) 
这 个 解 通过 x 表示 (在 满 秩 的 情况 下 ， 只 存在 一 种 最 小 二 乘 解 ， 它 必须 拥有 最 小 的 L; 范 数 )， 
如 A.2.14 节 中 指出 的 ，x 可 以 经 过 SVD 求 得 。 
在 式 (8-145) AR (8-146) P, 一旦 发 现 一 个 最 小 化 的 9， 那么 任何 x 满足 
Ax=b (8-155) 
称 作 最 小 二 乘 解 
Ab =b~b (8-156) 
称 作 相应 的 最 小 二 来 修正 。 满 足 方程 式 (8-145) 和 式 (8-146), RADER (A) EMER 
投影 。 因 此 ， 最 小 二 乘 问题 涉及 到 最 小 量 Ab 干 扰 观 察 向 量 5，， 因 此 
p=b—Ab (8-157) 
可 以 通过 数据 和 矩阵 4 的 列 进行 估 测 。 正 如 前 面 描述 的 ， 标 准 最 小 二 乘 问题 中 的 基本 假设 是 误差 
只 发 生 在 观察 向 量 5， 并 且 和 矩阵 4 假设 为 完全 已 知 的 。 但 是 ， 这 通常 不 是 一 个 实际 的 假设 。 因 
此 ， 现 在 计划 同时 考虑 5 和 4 的 误差 ， 并 考虑 总 体 最 小 二 乘 问题 。 
基本 的 总 体 最 小 二 乘 问题 
考虑 如 式 (8-144) 中 的 超 定 组 ， 总 体 最 小 二 乘 问题 寻求 


Minimize II [A | b]- [ÂI ÉJI, (8-158) 
(Ai pR 
受 限于 bC.R(A) (8-159) 


SEPIA cu o ET REE, LE. ARD “mI” MARY “ERB”, || |; ESE 
贝 尼 乌 斯 (Frobenius) 范 数 (参照 A.2.13 节 )。 一 旦 找到 最 小 的 [4 周 值 ， 那 么 任意 向 量 x 都 
满足 


Ax = 6 (8-160) 

称 作 TLS“ 解 "，[A4|A 自 = [加 一 作风 是 相关 的 TLS 修 正 。 我 们 使 用 读 示 TLS 方 法 。 另 一 种 看 
待 这 个 问题 的 方式 是 找到 向 量 z， 它 寻求 

最 小 化 AAIR + labil] (8-161) 

受 限 于 (A—AA)x = (b— Ab) (8-162) 


奇异 值 分 解 (参照 A.2.14 节 ) 是 求解 TLS 问 题 的 标准 方法 。 方 程 (8-144) 可 以 写作 如 下 
形式 


{Alb][x"|—1] =0 (8-163) 
[ADIR Knik TLSE ALAR MET WE, BLA PEK 
[Alb] = USV" (8-164) 
其 中 $ = diaglo,, o» …, 0,, 0]。 最 化 的 TLS 修 正如 下 
Oya = min W[AIb]-[A1 BI, (8-165) 
相对 应 的 TLS 修 正和 矩阵 
[AAIAD = [Alb] — [A]d) = o, ,u,v (8-166) 


求解 式 (8-158) 和 式 (8-159) 中 的 TLS 间 题 ， 且 


~ 
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a 1 
x= 





(2) [Uy nVa no Unna] (8-167) 


n+l, n+l 


是 式 (8-162) 的 唯一 解 。 


8.10 求解 线性 方程 组 的 人- 范 数 (最 小 最 大 ) 神经 网 络 


本 节 打 算 介 绍 一 种 求解 4Ax = DAER”, LER", DER" 的 神经 网 络 体 系 结 构 ， 基 于 误差 
的 L- 范 数 (或 者 Chebyshev 范 数 ) 


(x= X ax; =b, i=1,2,---5m (8-168) 
{£ 


这 也 称 作 最 小 最 大 问题 ， 可 以 通过 公式 表示 如 下 : 
最 小 化 如 下 所 示 的 能 量 函 数 ， 求 解 向 量 x 


& (x) = max{le;(x)1} (8-169) 
其 中 e;(x) 由 式 (8-168) 给 出 。 可 以 把 它 写 得 更 简洁 一 些 ， 如 下 
min max{le,(x)1) (8-170) 
这 一 最 大 最 小 最 优化 问题 可 以 改写 成 有 带 不 等 式 约束 的 线性 规划 问题 ， 如 下 
最 小 化 x 
ZRF le(x)|<x 对 于 i = 1, 2,…,m (8-171) 
且 Xo 之 0 
Xo (Xo) 的 最 优 值 必须 满足 式 (8-170) 
= & (x°) = min max{le,(x)!} (8-172) 
式 (8-171) 中 的 线性 规划 问题 可 以 写成 一 种 更 加 易于 求解 的 形式 ， 即 
最 小 化 x 
受 限于 pa Xo + e; (x) 20 (8-173) 
fa (F Xo ex) 
且 x20 


其 中 = [xo XX, …, Xe RR (8-173) 的 线性 规划 问题 的 一 种 方法 是 ， 首 先 用 公式 表示 
AEF ETAM GOERA, 也 就 是 ， 


E(B) = 0,49 + (U Olmin)? + {Lf2 Bein) (8-174) 


FER Elmin = min(0, ERa, Qa, > 0[8]。 使 用 这 一 能 量 函 数 ， 可 以 形成 包含 两 个 微分 方程 的 
最 速 下 降 梯度 系统 ， 这 两 个 方程 组 成 神经 网 络 连 续 时 间 学 习 规 则 。 这 两 个 微分 方程 的 基本 
形式 


De - uV oS @) (8-175) 


Fi = HV EG) (8-176) 
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其 中 j= 1,2,…,n。 式 (8-175) 中 的 梯度 可 以 计算 为 


0 & (x) 
Xo 


V oF (2) = 


GSO ey a ap yp 
a, +2 2 S H Oa) + ax, Me Omn) ) (8-177) 


= al +a, > {Lro + €; )]T inary.: + Exo -6T rary.) 





其 中 
0 如 果 xo +e; (x) 20 
Tav i Å Tonay, [fi (2)] = l 其 他 (8-178) 
以 及 
A 0 iR- e (x)z0 ` 
Ta A Tiinan, [fa = l 其 他 ° (8-179) 
式 (8-176) 中 的 梯度 可 以 如 下 计算 
DZ 人 
VEO- 
-25 KAT (Dmi Peis CE) deni | (8-180) 
2 £ | ax, il min ax, i2 min | 


=a, dul [xq +E) inary, + [Xo ~ e Oaah) 


HPT binary, i DART binary, ;分 别 由 式 (8-178) 和 式 (8-179) 定义 。 设置 这 两 个 梯度 值 为 0， 式 
(8-177) 和 式 (8-180) 可 以 写作 


V Eâ) =— + ney {[xo + e; (Tinay. + [xo -EOT nayi} (8-181) 


V8) = > a; {lto + e; (€) ary, + [xo ~ 6) Tany.) (8-182) 


使 用 式 (8-181) 和 式 (8-182), HÆR (8-175) MA (8-176) 可 以 写作 


dx, 

本 = -+ 2 to +e; i Tinan. i + [xo =e; i T inary, a) (8-183) 
dx, . 
一 一 = a = -u Xela + €; ON binary. į +[xo 一 e T inan. iÐ (8-184) 


其 中 | = 1, 2, +, n, Ho > 0 以 及 万 > 0。 图 8-14 描 述 了 使 用 最 小 最 大 二 次 惩罚 函数 方法 求解 线性 
方程 组 的 神经 网 络 体系 结构 。 
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图 8-14 使 用 最 小 最 大 二 次 惩罚 函数 方法 求解 线性 方程 组 的 神经 网 络 体 系 结构 


8.11 求解 线性 方程 的 上 1 范 数 (最 小 绝对 偏差 ) 神 经 网 络 


Li 范 数 有 时 候 称 作 最 小 绝对 偏差 范 数 。 对 于 求解 线性 (以 及 非 线 性 ) 方程 组 ， 这 一 范 数 
为 L。 范 数 (Chebyshev 范 数 ) FIL, 703% (最 小 二 乘 范 数 ) 提供 了 一 种 非常 有 用 的 替代 。 工 , 范 数 
和 上 L。 范 数 已 在 信号 处 理 领 域 有 着 广泛 的 应 用 [10, 12, 17, 21, 23, 24, 63]。 姜 范 数 求解 线性 方程 
组 拥有 的 许多 特征 是 L, 范 数 最 小 二 乘 求 解 同一 系统 所 不 具备 的 。 例 如, 工 范 数 求解 倾向 于 鲁 棱 ， 
也 就 是 这 些 解 对 于 数据 中 相对 较 大 的 误差 敏感 性 较 差 。 线 性 方程 组 超 定 组 的 L 范 数 解 一 般 都 
存在 (但 是 ， 并 不 要 求 唯一 ) ， 而 对 于 相同 系统 的 最 小 二 乘 (LER) 解 对 于 满 秩 系统 是 唯一 
的 。L 范 数 问题 相当 于 线性 规划 问题 ， 反 过 来 ， 线 性 规划 问题 可 以 使 用 公式 表示 成 L 范 数 
问题 。 

Lig (最 小 绝对 偏差 ) 问题 的 基本 形式 可 以 描述 成 以 下 形式 。 考 虑 线性 代数 方程 组 

Ax=b (8-185) 
(AER”"*", xER"™', BER"*'), MELA FHL 
6=e x 对 于 i=1,2,…,p 








ô, <c x 对 于 i=pt+1.p+2,.…,g (8-186) 
所 要 求 的 解 向 量 x 要 能 使 如 下 能 量 函 数 最 小 化 


& (x) =lle(x) Il, = Seto! (8-187) 


其 中 误差 向 量 e(x) 由 式 e(x) = 4x 一 5 给 出 ， 或 者 利用 标量 形式 


e (x)= X ayx, ~b, (8-188) 


j=l 


因此 ， 使 用 式 (8-188) ， 由 式 (8-187) 给 出 的 能 量 函 数 可 以 写作 如 下 形式 


r=) 


i=} 


n 


> a,x,- b; 
j 


受 限 于 式 (8-186) 的 约束 条 件 。 约 束 值 包含 在 向 量 5 = 16,, 56,…,6,] H, He = [co co … 
csJ 是 约束 向 量 。 正 如 在 这 一 节 介 绍 中 所 述 ，L, 范 数 问题 相当 于 线性 规划 问题 。 

现在 介绍 一 种 实现 求 线性 方程 组 忆 范 数 的 神经 网 络 体系 结构 [8]。 首 先 ， 考 虑 以 下 非 约 柬 
问题 。 确 定 解 向 量 x， 最 小 化 能 量 函 数 








(8-189) 


Ewe Plea) (8-190) 
其 中 ， 
e(x) = yor) -b, (8-191) 


现在 修改 这 一 非 约束 问题 ， 使 之 包含 辅助 性 的 不 等 式 及 等 式 约束 ， 形 成 一 个 线性 规划 问题 ， 
也 就 是 ， 


最 小 化 > 9; (8-192) 
4 
LEE - 0, <e(x)<0, i=1,2,…,m (8-193) 


一 种 可 以 求解 这 一 问题 的 方法 是 拉 格 朗 日 乘 子 技术 (参照 A.6.2 节 )。 采 用 这 种 方法 实际 上 是 
对 标准 拉 格 朗 日 函数 的 增 大 ， 使 之 包括 正则 化 项 。 因 此 ， 增 广 的 拉 格 朗 日 (能量 ) 函数 可 以 
由 下 式 给 出 


m 


E(x,AG) = A(x) = > | +% (e+e, Twin} + {le (x)- avn} 


(8-194) 
+ À; fie + 0; Jinin + le; (x) 一 0; Tun 一 Z A; | 


其 中 
[S]min = min{O, §] 
[ 引 = max[0, 引 
a,>0 = TBR 
A, = 拉 格 朗 日 乘 子 
GZ 0= 正 则 化 〈 和 稳定 性 ) 参数 
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使 用 式 (8-194) 中 的 能 量 函 数 ， 最 速 下 降 梯度 系统 可 以 由 三 个 构成 神经 网 络 连续 时 间 学 习 规 
则 的 微分 方程 组 成 。 这 三 个 微分 方程 分 别 是 


dx m 
Ge MD ai +a, ži) (8-195) 
do, 
Ih +a 5,9 (8-196) 
dA, 
i = B(%.-o/. 8-197 
dt BG; OA,) ( ) 
其 中 j = 1, 2, wey nil Ki = 1, 2, t, M, 以 及 
uj, >0 B,>0 (8-198) 
e(x)+0, WF e; (x) <- 0; 
3, = 410 对 于 一 0; <e(x)<o, (8-199) 
el(z)-O 对 于 e œ) >-0, 


图 8-15 描 述 的 神经 网 络 结构 实现 了 基于 Ll 范 数 (最 小 绝对 偏差 范 数 ) 求解 线性 方程 组 的 连续 时 
间 (模拟 ) 过 程 。 





图 8-15 使 用 L，( 最 小 绝对 偏差 ) 范 数 求解 线性 方程 组 的 人 工 神经 网 络 体系 结构 
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习题 
8.1 考虑 以 下 线性 方程 组 的 超 定 组 (Ax=b) 即 
0 10 2] > 
2 30 -8 1 0 1 
2 0 olx] | 1 0 1 0 
alo 2 ial- ol | 0 
1 -1 1llx,! |-6 -1 afe fy 
1 5 6 6 2 -1 -1 
5 4 4 6 


请 使 用 在 8.4 节 中 提 到 的 标准 最 小 二 乘 神经 计算 方法 求解 以 上 各 zx。 求解 终止 的 准则 是 当 
lxx |], < 107°, Herp’ 是 神经 网 络 解 ，x” 是 MATLAB 解 〈 使 用 pinv 内 建国 数 ) 。 使 

用 一 组 合适 的 随机 数值 ， 初 始 化 你 的 网 络 。 最 优化 学 习 率 参数 以 及 在 每 一 种 情况 训练 步 

又 的 数目 ， 使 得 求解 在 最 小 数目 的 磷 代 后 完成 。 


8.2 ”考虑 以 下 线性 方程 欠 定 组 局 
x, 
2 5 4040 4771 ri 
11710 397 33) 13 
lin 6 oa 7 6 asi{* | 
6 6 019 6 3 3 | | 4 
Xe 
x; 
xX 
X2 
6 2 4-9 -2 2-12 0 nlx| ra 
$ -10 1 8 -2 0 -11 -1 了 | 1-13 
œl 9 -7 -6 6 10 -10 -15 -13 -12||x,/=| 9 
-10 11 -6 -8 -5 -9 1 -3 -| 0 
2 -1 4 -3 3 -4 -12 10 -zl | 6 
Xg 


使 用 在 8.4 节 提出 的 标准 最 小 二 乘 神经 计算 方法 求解 每 个 r。 使 用 与 问题 8.1 相 同 的 终止 
准则 。 

8.3 ”在 A.2.9 节 中 关于 一 个 矩阵 迹 的 特征 ， 可 以 有 trace(4B) = trace(BA), PAER” "TLR 
BER"** 。 使 用 这 个 特征 以 及 矩阵 迹 的 其 他 特征 ， 证 明 以 下 误差 代价 函数 是 相同 的 。 第 
一 个 误差 代价 函数 是 


EC)= L trace( EE!) 


其 中 误差 矩阵 E1 与 方程 式 (7-13) 中 提出 的 矩阵 伪 逆 的 计算 相关 ， 也 就 是 ， 
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E,=ACA~—A 
FPAER"", CER” BEREAN (Ot, 第 二 个 误差 代价 函数 是 


EC) = J trace( EIE, ) 


其 中 误差 矩阵 E; 即 式 (8-40) 所 示 ， 也 就 是 ， 
385 E,=A™AC-—A' 
这 个 误差 矩阵 同样 与 矩阵 伪 逆 的 计算 相关 。 然 而 ， 它 是 从 求解 线性 方程 组 的 学 习 规 则 中 
发 展 而 来 的 。 请 证 明 : 2 (C)= #0). 
BRB 8.4 ABRA SE SE E85 i HE OR A A EAR AK, tot 
E, WAEA Fletcher-Reevestt Hee Bi. FARA CW, RRL FERH 
程 的 解 x 
10 7 8 nfk] 122 
7 5 6 Sllx,| |23 
8 6 11 8iix,] 133 
7 5 8 1lllx,| 131 


使 用 一 组 适当 的 随机 数 初 始 化 网 络 。 
尔 的 程序 确定 一 个 合理 的 终止 准则 。 


那么 求解 收敛 所 必需 的 最 小 训练 步 数 目 是 多 少 ? 为 
尝试 使 用 你 在 问题 8.1 中 编制 的 实现 最 小 二 乘 神经 计 


算 方法 的 计算 机 程序 ， 求 解 以 上 矩阵 方程 。 解 释 结果 。 
B85 考虑 以 下 乱 阵 方程 


10 7 
7 5 
8 6 
7 5 


8 O 7[x] [32.1 
6 Sillx,| 1229 


11 8{}x,] 132.9 
8 11llx,! |31.1 


这 与 问题 8.4 考 虑 的 系统 相同 ， 除 了 向 量 # 中 的 元 素 已 经 被 一 个 大 小 为 土 0.1 的 量 所 扰动 。 


首先 检查 矩阵 4 的 条 件数 。 基 于 这 一 


-条 件数 ， 你 能 看 到 对 比 问题 8.4 中 求 得 的 解 向 量 x 的 


元 素 的 强烈 变化 吗 ? APRA SE SEE EEE, 确定 矩阵 方程 的 解 。 对 比 问 题 8.4 中 你 的 解 ， 


是 否 存在 强烈 变化 ? 


B86 一 个 复线 性 矩阵 方程 如 下 


a 


(A +jC)x=b+jd 
其 中 向 量 x 可 以 写作 x= x tix, (=N), ARRAMELE RHEEDE, H 


导出 两 个 新 的 方程 


Axr-Cx,=b 


J(Cxe —Ax,) = jd 
可 以 将 两 者 写成 一 个 实 的 向 量 矩 阵 方程 如 下 


fe alls) 


使 用 这 一 转化 以 及 在 8.4 节 提出 的 标准 最 小 二 乘 神经 计算 方法 ， 求 解 下 式 
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1+j2 5-j7 3-j3][x,] fi+j2 
3-j5 1+j5 j2 |lx,|=|1-j2 
3 3~j3 3+j3llx | litj2 




















使 用 标准 方法 ， 通 过 在 MATLAB 中 计算 求解 ， 从 而 对 照 检查 你 的 结果 。 

8.7 ”编写 一 段 计算 机 程序 实现 在 8.6 节 提出 的 求解 噪声 干扰 的 线性 方程 组 的 广义 鲁 棒 方 法 。 假 A's 
定 非 线性 加 权 函 数 是 logistic 函 数 ， 也 就 是 ，fi (1?) = In[cosh(1/B)]。 一 个 标准 线性 矩阵 方 
程 如 下 所 示 


-1 -4 5 6 101[x1] [-12 
-1 -1 -9 -2 -16|ix, 3 
5 15 0 -21 -ie = -4 标准 系统 
-6 -6 6 1 -7||x, 1 
-1 -13 5 16 -10| x, -4 


使 用 MATLAB 求 解 这 一 标准 系统 ， 即 交 。 假 定数 据 矩 阵 4 已 经 被 脉冲 噪声 干扰 ， 同 时 给 
出 的 结果 系统 如 下 


-1 -4 5.236 1 6 10} fx,] f-12 
-1 -0.917 8 -9 -1.977 0 -16| |x, 3 
5 15 0.178 1 -21 -1 |adj=] -4| 受 扰 系统 
-6 -6 -6 1 -7 | hx, 1 
-] -12.8241 5 16 -10 | | x, -4 


和 矩阵 4 的 部 分 元 素 受 扰 破 坏 起 因 于 一 些 随机 选择 的 15% 的 元 素 被 一 个 来 自 方差 为 (0.15) 
* (0.005) 的 均匀 分 布 的 随机 数 所 干扰 。 再 一 次 使 用 MATLAB， 确 定 方程 组 的 解 。 使 用 
你 的 计算 机 程序 寻求 鲁 棱 解 ， 并 使 之 与 MATLAB 的 解 进行 对 比 。 分 别 使 用 式 (8-75) 和 
X (8-76) ， 计 算 MATLAB 求 解 和 和 鲁 棒 神 经 计算 求解 的 标准 误差 估计 (SEE)。 按 照例 8.3 
的 图 8-10， 以 相同 的 方式 绘制 你 的 结果 图 。 
提示 : 尝试 不 同 的 B 参 数值 以 及 学 习 率 参数 值 。 同 样 ， 使 用 来 自 方差 为 25 的 均值 为 0 的 高 
斯 分 布 的 随机 数 作为 鲁 棒 神 经 网 络 的 初始 权 值 。 
8.8 Kahan 和 矩阵 是 上 三 角 和 矩阵 (参照 A.2.19 节 )。 它 可 以 生成 作为 带 有 病态 确定 数值 秩 的 病态 般 
矩阵。 以 下 介绍 使 用 MATLAB 函 数 产生 Kahan 和 矩阵 ( 注 : 角度 a 以 度 计量 ) 387 





function A=kahan (n,alpha) 
alpha=alpha*pi/180; 
TMPl=zeros (n,n); 

TMP2=eye (n,n); 

TMP1 (1,1)=1; 

for k=2:n 

TMP1 (k,k)=(sin(alpha) )*(k-1); 


if jok 
TMP2 (k, j)=cos(alpha); 
end 
end 


end 
A=TMP1*TMP2; 
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W 8.9 


W 8.10 


8.11 


W 3.12 
W 8.13 


使 用 这 一 函数 ， 生 成 一 个 10 x 10 的 角度 c = 1.0" 的 Kahan 和 矩阵。 这 将 作为 数据 和 矩阵 4。“ 精 
确 解 ” 问 量 x. 的 元 素 由 下 式 给 出 

Xea =e" 其 中 i = 1, 2, +, 10 
JM ARE BA Kahan 36 BFA DA Be a AS AF x, 可 以 产生 观察 向 量 = Ax, 。 那 么 数据 矩阵 4 
的 条 件数 是 多 少 ? 使 用 神经 计算 方法 求解 4x = 2， 导 出 最 优 解 ， 也 就 是 ， 对 于 相对 误差 
的 最 优 解 (参照 例 8.4)。 
使 用 MATLAB 的 hilb 函 数 ， 产 生 一 个 维 数 为 15 的 希 尔 伯 特 Hilbert) 矩阵。 精确 解 向 
量 x, 的 元 素 由 下 式 给 出 

x =e? 其 中 i=1,2,…,15 
从 希 尔 伯 特 矩阵 4 以 及 精确 解 向 量 x， 可 以 产生 观察 向 量 5 如 下 8 = 4x,。 那 么 数据 矩阵 4 
的 条 件数 是 多 少 ? 使 用 8.7 节 提出 的 截断 奇异 值 分 解 (TSVD) 以 及 Tikhonov 正 则 化 方法 ， 
寻求 4x = 6 的 考虑 相对 误差 的 最 优 解 (参照 例 8.4) 。 确 定 最 佳 的 正则 化 参数 。 
分 别 使 用 (a) 高 斯 - 赛 德尔 ，(b) 雅 可 比 ，(c) 理 查 森 以 及 (d) 逐次 超 松 弛 (SOR) 基于 
和 矩阵 分 裂 的 迭代 算法 ， 求 下 式 的 解 


43 2 5 24x, -34 
37 4 4 3ilx, -2 
2411 7 4ilx,J/=| -3 
5 4 7 16 7llx,| 1-123 
2 3 4 7 lx,| |-113 


RFR PRRD, E FHIR Æp — x" /x*。< 10 最 小 化 实现 收敛 的 迭 
RECA, Ehr” 是 任意 的 一 个 从 (a) (ORRA, x 为 MATLAB 解 。 对 于 每 一 种 方法 
使 用 相同 的 初始 随机 权 值 。 
确定 以 下 直线 的 参数 (a, b) (斜率 以 及 纵 轴 交 点 ) 

y(x)=ax+b 


直线 满足 数据 点 {x， yi} = {(0, 1), (2, 2), (3, 3), (4, 7), (6, 9)}。 这 个 问题 可 以 用 公式 
表示 成 超 定 线性 方程 组 ， 如 下 


0 1 1 
2 1 2 
a 
3 afal- 
b 
4 1 7 
6 1 9 


应 用 最 小 二 乘 神经 计算 方法 求解 这 一 方程 组 。 在 同一 张 图 上 ， 使 用 你 求 得 的 点 (a, bÉ 
值 ， 画 出 数据 点 以 及 最 小 二 乘 直线 。 
对 于 问题 8.11 应 用 万 范 数 (参照 8.11 节 ) 以 及 L。 范 数 (参照 8.10 节 ) 标准 。 
求解 以 下 多 项 式 的 参数 (a,b,c,d) , 

y(x) = ax? +b? +cx+d 
以 上 多 项 式 满 足 数 据点 {x, y} = (00,1), C1, 3), (2,4), (4,5), (5,8), (7,9), (10, 11)}。 
应 用 最 小 二 乘 神经 计算 方法 ， 在 同一 张 图 上 使 用 你 求 到 的 值 (a, b, c,d) 画 出 最 终 的 最 





8.14 


8.15 
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小 二 乘 多 项 式 以 及 满足 观察 的 数据 点 。 
提示 ; 使 用 MATLAB 的 polyval 函 数 计算 你 所 确定 的 多 项 式 y = ax + pe + cx + d 的 系 
数 (a,b,c,d). 
要 求 使 用 以 下 6 次 多 项 式 对 于 {x;} = {0, 0.1, 0.2, … 10) UE BBS (x) =e cos x 加 


yx) =ax + bo + cx + det ex+fxte 


确定 多 项 式 y(x) 的 系数 ， 也 就 是 (a, b,c, d, e,f, 8)， 使 得 多 项 式 在 考虑 最 小 二 乘 时 尽 可 
能 最 好 的 拟 合 函数 (x)。 实 验 使 用 不 同 次 多 项 式 确定 什么 次 可 以 得 到 最 好 的 拟 合 。 389 
提示 : 使 用 在 8.5 节 提出 的 共 斩 梯 度 学 习 规则 。 以 下 所 示 的 MATLAB 国 数 可 以 用 于 从 所 

有 的 数据 点 中 生成 数据 矩阵 4 以 及 观察 向 量 5。 


function [A,b}]=points (x,y,n) 
% [A,b]=points(x,y,n) 
% Sets up: Ax=b 
%n: degree of the polynomial 
%x: vector of "x" points 
% y: vector of "y" points 
k=length(x); 
for isl:k 
for j=1:n+1 
A(i,j)=x(i)*(j-1); 
end 


end 
A=rot90(A’,-1); 
bey; 





假设 标准 线性 矩阵 方程 4x = b, Hpi L MATLAB ™4E do F J 


A=round(10*randn(10,10)); 
产生 如 下 形式 观察 向 量 


b=round(5*randn(10,1)) 


PLAY Be AREA AT Le ALA S28 MATLAB K runiferryf Æ. XKR TAH 
Se EMATLAB #3 BG OL (Fk OR FOR ER A PAR, ARATE 
元 素 必须 是 已 知 的 ， 它 们 分 别 是 标准 数据 矩阵 4 以 及 4 中 受 干扰 的 元 素 的 (平均 ) 百 分 
率 。 在 函数 自 变量 中 的 第 三 个 元 素 是 可 以 选择 的 。 对 于 上 且 前 的 问题 使 用 默认 值 。 受 干扰 
的 元 素 百分比 使 用 15%。 

使 用 MATLAB 的 pinv 函 数 ( 求 取 和 矩阵 伪 逆 ) 求解 标准 系统 以 及 受 干扰 系统 的 最 小 
二 乘 解 。 使 用 8.6 节 提出 的 广义 鲁 棒 方法 求解 方程 组 ， 并 确定 受 干扰 系统 的 鲁 棱 解 。 假 
定 非 线性 加 权 函 数 是 logistic 函 数 (1) = Prln[cosh(1/B)]。 用 方差 为 25 的 零 均值 高 斯 分 布 
的 随机 数 作为 鲁 棒 神经 网 络 一 个 初始 权 值 。 尝 试 不 同 的 B 值 以 及 学 习 率 参数 。 分 别 使 用 
式 (8-75) ARJ (8-76) ， 为 MATLAB 的 解 和 和 鲁 棒 神 经 计算 的 解 计 算 标准 误差 估计 。 
按照 例 8.3 的 图 8-10 相 同 的 方式 画 出 你 的 计算 结果 。 390 


function (AC,N]=suniferr(A,per,s) 
% [AC,N] =uniferr(A,per,s) 
% As input matrix 

corrupted "output matrix" 


noise matrix, random elements from 
uniform distribution on the interval 
(0.0,1.0), that is, if s=1 
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% per: percentage of elements to be corrupted 
% sg: interval scale factor, i.e., 
% (0.0,8), the default value is 
% 3=0.2449 resulting ina 
% variance of (per/100)*0.005 
if nargin>2 
scale=s; 
else 
scale=0.2449; 
end 


{nr,nc]=size(A); 
Nzzeros (size(A)); 
for i=l:nr 
for j=l:nc 
if (rand <= per/100) 
N(i,j)=scale*rand; 
end 

end 
end 
AC=A+N; 
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第 9 章 使 用 神经 网 络 的 统计 方法 


9.1 概述 


本 章 的 主要 目的 是 提出 两 种 在 解决 科技 工程 问题 中 广泛 应 用 且 非 常 重要 的 统计 分 析 以 及 建 
模 方法 ， 同 时 讲述 如 何 应 用 神经 计算 算法 来 实现 这 些 方 法 。 特 别 地 ， 主 成 分 分 析 (PCA) [1- 
5] 首先 提出 。PCA 已 经 在 许多 工程 以 及 科学 应 用 中 得 到 了 广泛 的 应 用 ， 它 是 主 成 分 回归 方法 
的 基础 (PCR) [4, 6-81]。PCR 是 一 种 基于 因子 分 析 的 统计 建 模 方法 。 考 虑 一 系列 经 验 数据 〈 即 ， 
训练 数据 ) ，PCR 是 一 种 统计 校正 模型 ， 可 以 基于 保留 最 佳 数量 的 PCR 因 子 来 获得 模型 。 假 设 
对 于 校正 模型 有 一 个 未 知 的 输入 ， 那 么 ， 这 一 统计 校正 模型 就 可 以 用 来 预测 (或 估计 ) 输出 。 

第 二 种 方法 称 作 部 分 最 小 二 乘 回归 (PLSR) 方法 [7-14]。 这 是 另 一 种 基于 因子 分 析 的 建 
立 统计 模型 方法 。PCR 和 PLSR 之 间 的 区 别 主 要 体现 在 产生 统计 校正 模型 的 经 验 数据 的 表达 方 
式 上 。 对 于 PCR 方 法 ， 在 产生 校正 模型 的 过 程 中 ， 唯 一 使 用 的 是 测量 数据 ( 即 ， 独 立 变 量 
块 ) ， 而 对 于 PLSR 方 法 ， 测 量 数据 和 目标 数据 (或 者 相关 变量 块 ) 都 是 必需 的 。 一 般 情况 下 ， 
PLSR 方 法 比 PCR 方 法 会 产生 更 好 的 估计 预测 ， 这 是 因为 在 产生 统计 校正 模型 时 ， 前 者 使 用 了 
更 多 的 信息 。 

PCR 方 法 和 PLSR 方 法 是 组 成 化 学 统计 学 [8,14] 领 域 的 诸多 方法 中 的 两 种 。 化 学 统计 学 是 
应 用 于 化 学 领域 的 ， 基 于 数学 逻辑 的 统计 和 数学 方法 应 用 的 学 科 。 最 近 ， 化 学 统计 学 中 的 一 
些 方法 ( 即 ，PCR 以 及 PLSR 方 法 ) 才 被 应 用 于 工程 学 科 以 及 其 他 科技 领域 [9]。 在 PCR 和 和 
PLSR 方 法 中 ， 在 产生 校正 模型 的 过 程 中 ， 选 择 必要 的 训练 数据 主要 特征 (因子 分 析 ) 的 能 力 
可 以 产生 更 好 的 预测 性 能 ， 例 如 ， 比 经 典 最 小 二 乘 (CLS) 方法 [7]。 也 就 是 说 ， 当 合理 地 进 
行 因子 分 析 时 ， 对 于 模型 的 产生 只 保留 数据 的 恰当 特征 。 例 如 ， 保 留 下 的 数据 若 与 噪声 相关 ， 
将 会 降低 预测 的 性 能 ， 则 放弃 它们 [9]。PCA，PCR 和 PLSR 都 可 在 各 种 神经 网 络 结构 中 实现 。 
因此 ， 在 这 一 章 中 ， 我 们 将 介绍 一 些 PCA，PCR 和 PLSR 的 神经 网 络 方法 。 


9.2 主 成 分 分 析 


主 成 分 分 析 在 许多 工程 以 及 科技 领域 中 有 着 广泛 应 用 ， 如 数字 图 像 处 理 [15] 中 著名 的 
Hotelling 转 换 [5] 和 通信 理论 中 的 Karhunen-Loeve 变 换 [16]。PCA 应 用 包括 数据 压缩 编码 ( 译 
码 )， 模 式 识别 ， 图 像 处 理 ， 自 适应 波束 形成 ， 隆 阶 控制 器 设计 ， 以 及 高 分 辨 率 谱 分 析 (面向 
频率 估计 ) 等 等 ， 这 里 只 提 及 了 其 中 的 一 部 分 。 正 如 我 们 将 要 看 到 的 ，PCA 同 特征 值 分 解 
(EVD) 是 直接 相关 的 (参照 7.6 节 )。 

一 般 情况 下 ，PCA 是 一 种 统计 方法 ， 它 可 以 用 于 确定 最 优 线性 变换 矩阵 We R”** (m <n), 
ans a A Tel xe WR”"*'， 一 般 认为 x 来 源 于 零 均值 宽 平 稳 随机 过 程 ，x 中 的 数据 可 以 根据 下 式 
进行 压缩 

y= Wx (9-1) 
其 中 ，ye R”"*'。 因 此 ，PCA 方 法 通过 变换 矩阵 W， ARROAREN 
维 输出 空间 ， 其 中 典型 的 m < n。 维 数 减 缩 因 此 可 以 通过 PCA 执 行 ， 其 中 y 包 含 (保持 ) - 
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部 分 驻 留 在 输入 向 量 x 中 的 必要 信息 。 也 就 是 说 ，PCA 可 以 将 大 量 的 相关 输入 数据 转化 成 一 系 
列 的 统计 去 相关 分 量 (或 者 特征 )。 分 量 通常 按照 方差 递减 来 排序 。 
举例 如 下 ， 令 x 是 一 个 零 均 值 随机 输入 向 量 ， 即 x = [zu x2, xX,] ， 以 及 协 方差 矩阵 (或 
者 相关 矩阵 ， 因 为 zx 被 看 作 零 均 值 )、C, = Efex"), HC eR "HEI EWES (参照 
A.7.4 节 )。 同 样 ， 向 量 [wj, w2,…, Wi) 是 一 个 标准 正 交 集 ， 也 就 是 ， 单 位 长 度 的 正 交 ， 即 wiw; 
=ô (VARJ), HH 是 克 罗 内 克 A， 并 且 每 个 向 量 的 单位 长 度 可 以 通过 成 范 数 表示 为 lw, 上 
=wiw = 1。 向 量 Fw, #2, …, ww] 称 作协 方差 矩阵 C, 的 前 m 个 特征 向 量 ， 这 样 w, = {wii, Wi …， 
Win AF FEREC, 最 大 的 特征 值 (4 ) we = [Wins Wor …， Worl! 对 应 于 次 大 的 特征 值 (Ad), 
以 此 类 推 。 因 此 ， 对 于 标准 的 特征 值 问 题 ， 第 阵 方程 可 以 写作 
Cw, = àw; 对 于 j = 1, 2, …,n (9-2) 
FHA RW EA, SA,2--SA,20, Bt lwil|, = 1。 和 矩阵 C. 的 前 m 个 特征 向 量 [w;, wa o Wna | 称 作 
主 特征 向 量 。 这 就 是 n 维 向 量 空间 的 方向 向 量 ， 对 于 它们 ， 输 入 数据 具有 最 大 的 方差 (或 者 说 
最 大 信息 量 )。 因 此 ， 对 于 一 个 已 知 的 输入 向 量 x， 向 量 y? 中 六 个 主 成 分 可 以 通过 式 (9-1) 的 变 
换 来 定义 ， 其 中 变换 矩阵 WW 如 下 
W = (WW, (9-3) 
换 旬 话说 ,输入 数据 空间 的 m 维 主 成 分 子 空间 可 以 定义 为 由 输入 协 方差 矩阵 C. 的 m 维 主 特 任 向 
量 形成 的 子 空间 。 
如 果 用 式 (9-2) 表示 每 一 个 特征 值 与 特征 向 量 ， 即 ， 
CIW, Wa Wa = [AW Way, hw (9-4) 
C.W = W’ diag(A,, An et, A, d= WA 


因此 ， 
C.W'=W'A (9-5) 
利用 W (SE WW' =1, mxn, WAWATA BIER) ARR (9-5) 的 两 边 ， 可 以 得 到 
A=WC,W' (9-6) 


同样 ， 如 果 利 用 W (PW Wel, man) 右 乘 式 (9-5) ， 又 可 以 得 到 
c,<w' awe Samm on 


也 就 是 矩阵 C，( 参 照 7.6 节 ) 的 特征 值 分 解 (EVD) ， 或 者 谱 因 子 分 解 。 因 此 ， 在 式 (9-6) 中 
AER” "代表 式 (9-1) 中 输出 向 量 ? 的 协 方差 矩阵 。 因 为 对 角 和 矩阵 A 的 对 角 元 素 是 非 负 的 ， 输 
出 向 量 ?的 元 素 是 不 相关 的 ， 同 时 方差 等 于 协 方差 矩阵 C, 的 特征 值 。 
通过 再 次 考虑 式 (9-1) 中 的 线性 变换 ， 可 以 很 好 地 发 现 以 上 性 质 。 我 们 假定 关注 的 是 第 / 
SERS., y 且 所 有 感 兴趣 的 主 成 分 的 次 序 是 : 第 一 个 主 成 分 关系 到 输入 数据 的 最 大 方差 ， 
第 二 个 主 成 分 关系 到 输入 数据 的 次 大 方差 ， 等 等 (如 同 以 上 陈述 )。 因 此 ， 令 y 作为 数据 输入 
向 量 x 分 量 的 线性 集合 ， 也 就 是 ， 
Y E WyX + WrjXy + + WX = WI (9-8) 


其 中 we R”*'。 因 为 x 认为 是 一 个 零 均 值 的 随机 向 量 ， 所 以 yj 是 一 个 零 均 值 的 随机 变量 ， 其 相 
关 的 方差 如 下 所 示 


o} = Ejly? ]=Efw xx w ]=w Ex w, =w Cw, = DD wwice (9-9) 


i=l hel 
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我 们 要 求 w; w = 1。 因 此 ， 我 们 的 目的 是 在 满足 wy w = 1 的 约束 下 ， 如 同 式 (9-9) 所 提出 的 ， 
最 大 化 与 相关 的 方差 。 这 一 问题 可 以 通过 拉 格 朗 日 乘 子 法 (参照 A.6.2 节 ) 进行 计算 ， 也 就 是 ， 

B(w;) = 05,—-A,(wiw,— 1) (9-10) 
极 值 可 以 通过 求解 式 (9-10) 3 Fw 的 偏 导数 ， 令 其 结果 等 于 零 来 得 到 (参照 A.3.4.1 节 )。 
也 就 是 





0B w,) 9 
wy = 5, lon hwiw, D] 
J dJ 
-~ [w;C w, -A (ww, -D] (9-11) 





J 


=2C,w,—2A,w, =0 


或 者 

(C, —A, Dw, = 9 (9-12) 
这 就 是 式 (9-2) 中 提出 的 初始 特征 值 问题 。 进 一 步 地 ， 在 当 且 仅 当 

IC, -A,1|=0 (9-13) 


时 ， 式 (9-12) 拥有 一 个 非 平凡 的 解 ， 其 中 式 (9-13) H, 4 (CARE) 0G = 1,2,…,n) 是 
矩阵 C. 的 奇异 值 ， 且 式 (9-13) 中 的 wo = 1, 2,…, n) 是 与 之 相对 应 的 《 主 ) 特征 向 量 。 此 外 ， 
AOR Aw) 同时 左 乘 以 式 (9-12) 两 边 ， 可 以 得 到 


w!(C,-A,Dw, =w,C,w, -Aww =o, -2, =0 (9-14) 
—~ none 
oy 
或 者 
A, = 02 (9-15) 


因此 ， 在 式 (9-15) 中 对 于 j =1, A= 0 ， 是 协 方差 矩阵 C. 的 最 大 特征 值 ， 或 者 向 量 x 的 输入 
数据 向 量 分 量 的 线性 集合 的 最 大 方差 ， 以 及 相应 的 特征 向 量 w 表 示 与 最 大 方差 相对 应 的 向 量 
空间 方向 。 

现在 只 要 保留 前 m 个 C, 特征 向 量 就 可 以 形成 式 (9-3) 中 的 变换 矩阵 W， 就 可 以 写 出 式 
(9-1) 中 的 y = Wx， 向 量 y 中 的 分 量 就 是 前 m 个 主 成 分 。 如 果 m 经 过 仔细 选择 ， 输 入 向 量 x 中 绝 
大 部 分 信息 内 容 会 包含 在 向 量 ? 中 。 进 一 步 ， 向 量 x 的 线性 最 小 二 乘 估计 可 以 写成 


t= CW (WC, WT) y (9-16) 
以 上 可 以 通过 均 方 误差 函数 ( 见 下 式 ) 来 推导 ` 
J(x) = E{(x —x)' (x —£)} (9-17) 


当 和 矩阵 WW 的 行 向 量 对 应 于 C, BS EE , (9-17) 对 应 于 向 量 x 的 最 小 化 。 我 
们 还 可 以 对 应 于 m 个 主 特 征 向 量 [wi, w2,…, wn] 写 出 向 量 x 的 近似 值 ， 如 下 


m m m 
a T, T. T 
x= J (x w,)Ww, = > w(x wh) = > w,(w, x) 
hel h=) h=l 


=(ww) tw wi to + wa Wn) (9-18) 


= ([W W wa Wi wa Wy) WE =W'Wx=W'y 
wW J 


wT 
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同样 ， 式 (9-7) HD Ze SBREC, 的 近似 值 可 以 写作 C, = WAW, HrpWeR™™", AER"™”, 


BEREC Bil mS 55 TEE AA HOT FA EU TCHR. ED, MA (9-6) 可 以 得 到 A = WC, 


W"， 正 如 前 面 所 提 到 的 ，A 是 输出 向 量 y 的 协 方差 矩阵 。 因 为 A 是 具有 非 负 元 素 的 对 角 和 矩阵 ， 
所 Ly 的 分 量 是 不 相关 的 ， 且 其 方差 等 于 算 阵 C, 的 m 个 特征 值 。 

在 实际 中 ， 协 方差 矩阵 C., 和 向 量 x 的 概率 分 布 通 常 是 未 知 的 。 但 是 ， 典 型 地 ， 可 以 收集 大 
量 的 采样 数据 向 量 x(K) (k= 1 2,…, N. MANARE EP, EX = [x(1), x(2), …, x(N)]， 
可 以 对 wN 个 可 能 的 采样 向 量 依照 时 间 平 均 [17]， 得 到 一 个 协 方差 矩阵 的 估计 ， 如 下 


N 
¥ x(x (k= = XX" (9-19) 
k=l N 


总 的 来 说 ，PCA 的 目标 是 要 确定 与 输入 的 数据 相关 的 m 个 正 交 的 主 特征 向 量 集 W = fwi， 
Wi， Wel ER"*"(m < n)。 进 一 步 说 ， 这 些 正 交 向 量 应 该 生成 一 个 输入 数据 空间 ， 以 便于 尽 
可 能 多 地 说 明 输 入 数据 的 方差 。 因 此 ， 向 量 x 中 的 信息 压缩 到 包含 在 向 量 y 中 的 输出 (ERS) 
中 。 但 是 ， 如 同 在 式 (9-19) 中 所 描述 的 ， 通 常 对 于 估计 C, 必 要 的 信息 x(O (k= 1, 2, …, N), 
不 能 集体 获得 ， 而 可 以 每 次 得 到 一 个 向 量 测量 。 因 此 ， 在 一 般 的 情况 下 ， 必 须 采 用 自 适应 法 
来 未 取 与 未 知 的 协 方 差 矩 阵 C, 相关 的 主 成 分 。 因 而 ， 自 适应 求 取 算 法 将 在 下 一 步 进 行 讨论 ， 
这 种 方法 基于 几 种 神经 网 络 结构 ， 可 以 通过 Hebb 学 习 ( 规 则 ) 来 进行 训练 (参照 2.8.2 节 )。 


9.3 神经 网 络 自 适应 主 成 分 估计 的 学 习 算法 


在 过 去 的 几 年 里 ， 许 多 神经 网 络 方法 在 协 方差 矩阵 的 自 适 应 主 成 分 提取 应 用 中 得 到 了 长 
足 的 发 展 [18-95]。 以 下 提出 的 是 四 种 最 著名 的 自 适 应 主 成 分 提取 方法 。 这 些 方法 之 间 并 不 是 
互 不 相干 的 。 事 实 上 ， 它 们 可 以 系统 化 地 追溯 到 单一 神经 元 使 用 Hebb 学 习作 为 主 成 分 分 析 器 
的 Oja[18] 的 最 初 公式 。 因 此 ， 首 先 给 出 的 将 是 Qja 的 单一 神经 元 Hebb 学 习 主 成 分 分 析 器 。 单 
一 神经 元 的 情况 被 扩展 到 对 于 若干 主 成 分 的 估计 。 用 于 多 重 主 特征 向 量 求 取 的 单 层 神经 网 络 
结构 是 由 Oja 和 Karhunen 所 提出 的 [20]。 用 于 将 单一 主 成 分 的 情况 扩展 到 若干 个 主 成 分 估计 的 
典型 启发 式 讨 论 被 关于 学 习 规 则 的 数学 推导 所 取代 。 从 这 一 对 称 子 空间 学 习 规 则 可 以 直接 推 
导出 其 他 两 个 学 习 规则 ， 也 就 是 ， 广 义 Hebb 算 法 (GHA) [21] 以 及 随机 梯度 上 升 (SGA) 算 
法 [26]。 最 后 ，Kung 等 [30] 提 出 了 APEX ( 自 适 应 主 成 分 提取 ) 算法 。 基 本 上 存在 两 种 PCA 学 
习 规则 : 重 估 计算 法 以 及 去 相关 算法 [40]。 下 面 将 研究 的 前 四 者 是 重 估 计算 法 ， 而 最 后 一 个 
(APEX) 是 去 相关 算法 。 


9.3.1 第 一 主 成 分 估计 一 -Oja 的 正规 化 Hebb 学 习 规 则 


建立 一 个 简单 的 (单一 神经 元 ) 的 神经 网 络 能 够 
求 取 第 一 主 成 分 。 在 1982 年 ，Oja[18] 为 这 个 目标 提出 ” Wi 
了 单一 线性 处 理 单元 ， 见 图 9-1， 从 图 中 可 以 得 到 如 下 
的 表达 式 : o R i 
y= wx =x'w, =wix (9-20) x 


jl Xn 


误差 表达 式 可 以 写成 : e = x 一 x*， 其 中 在 单一 分 量 的 情 ”图 9-1 第 一 主 成 分 估计 的 Oja 神 经 模型 
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况 下 ， 对 于 x 的 估计 从 式 (9-18) 中 可 以 得 到 x =wiy1。 定 义 如 下 形式 的 误差 代价 〈 李 雅 普 诺 夫 ) 
pA BL 


l a_l a 1 r 
Lw)=z lels zlx-8ls zE Wy) wy) 


1 (9-21) 
= x- 2ywi x+ yiwi w) 
其 中 小 小 是 志 (KILE) 范 数 ， 计 算 相 对 于 权 值 向 量 w; 的 梯度 如 下 
1 9 . +> 7 
VL) = on = 3B —2ywixty ww) =—yx+ yw (9-22) 


其 中 要 使 用 A.3.4.1 节 的 结果 。 
用 于 提取 第 一 主 成 分 的 连续 时 间 学 习 规 则 可 以 通过 最 速 下 降 梯度 方法 作为 [64, 65] 如 下 形 
式 的 向 量 微分 方程 来 表达 


wo = -uV Lw) (9-23) 


其 中 学 习 率 参数 4 > 0。 利 用 式 (9-22) 中 的 梯度 结果 ， 连 续 时 间 学 习 规 则 可 以 写成 如 下 形式 
PD yO) = wi (9-24) 
以 及 如 下 形式 的 离散 时 间 学 习 规 则 
wilk + 1) = wi + Ely, (dxtk) = y300w 00] (9-25) 
其 中 k 是 时 间 索 引 。 自 适应 学 习 规则 称 作 正规 化 Hebb 或 者 0ja 的 规则 [18]， 其 中 权 值 向 晤 的 变 
化 可 以 写作 


Aw (k) = wik+ TD 一 mi = Hy (x(k) — yiwo] (9-26) 
根据 式 (9-25)， 标 量 学 习 规 则 可 以 写成 
wu(k+ 1) = w (k) + uly (kx; (—yilk)w O 对 于 j=1,2,…,n (9-27) 


已 经 证 明 0ja 的 学 习 规 则 收敛 于 权 值 向 量 w，( 即 ， 协 方差 矩阵 C., [18，20，39] 的 第 一 主 特征 向 
量 )， 具有 以 下 和 性质， 对 于 PCA 分 析 算 法 的 收敛 特性 的 细 布 ， 请 参阅 [94,95]。 


1 权 值 向 量 w, 具 有 单位 长 度 ， 也 就 是 说 ，Ihe R= Sw, = lw, = 1, 


2. 权 值 向 量 w, 是 协 方差 矩阵 C. 的 特征 向 量 之 一 。 

3. 权 值 向 量 w 最 大 化 了 输出 mw = 由 x 的 方差 。 因 此 ， 对 于 0 均值 输入 ，w: 是 第 一 主 特征 向 
量 ，y 是 第 一 主 成 分 。 

位 于 式 (9-26) 右 侧 的 第 一 项 是 标准 Hebb 共 生 参 数 (参照 2.8.2 节 ) ， 右 侧 第 一 项 是 一 个 活 
跃 衰减 或 者 遗忘 项 ， 它 防止 突 触 权 值 向 量 w, 在 训练 的 过 程 中 变 得 无 界 。 

重点 讨论 学 习 率 参数 L 是 因为 它 对 于 由 式 (9-25) 的 算法 收敛 性 起 着 直接 的 作用 。 如 果 4 
的 值 太 大 ， 学 习 规 则 将 不 收敛 。 也 就 是 说 ， 学 习 算 法 会 在 数值 上 表现 不 稳定 。 男 一 方面 ， 如 
果 L 值 太 小 ， 收 敛 将 会 变 得 极其 缓慢 。 典 型 地 ， 学 习 率 参数 看 成 是 随时 间 变 化 的 ， 也 就 是 4 = 
XA(k)， 因 此 应 该 在 一 开始 设置 一 个 较 大 的 值 ， 然 后 逐渐 减 小 直到 得 到 希望 的 精确 度 。 实 际 上 ， 
为 了 确保 算法 在 数值 上 的 稳定 性 ， 学 习 率 必须 满足 不 等 式 0 < mk) < 1/(1.24,)， 其 中 是 协 方 
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差 矩 阵 C, 的 最 大 特征 值 [20]。 使 用 一 个 良好 的 初始 值 应 该 基于 输入 x(k)， 也 就 是 ，J(k) = 1/[2x7 
(Dx(R)]。 这 样 将 会 确保 初始 的 收敛 性 ， 因 为 这 样 步 长 将 会 相对 较 大 。 然 后 ， 学 习 率 逐渐 减 小 ， 
以 便于 精细 调整 权 值 更 新 ， 从 而 得 到 一 个 精确 的 突 触 权 值 向 量 w[20，38，62] 估 计 。 很 多 时 候 ， 
在 数值 梯度 搜索 算 革 中， 遗忘 因子 [2] 或 者 泄露 因子 被 引入 ， 作 为 学 习 率 的 一 种 表达 。 在 
Cichocki 和 Unbehauenf38] 的 著作 中 ， 给 出 了 一 种 如 下 的 可 变 学 习 率 


1 


H(A) = HO) = 300) 而 对 于 i=1,2,--,m (9-28) 


ap ® 
其 中 和) 是 在 范围 0 系 7Y 科 1 中 的 遗忘 因子 。 通 常 ， 遗 忘 因子 在 范围 0.9 科 7 和 1。 对 于 估计 第 一 主 成 
4y, TEX (9-28) 中 i = 1。 因 此 ， 式 (9-28) 经 常 表示 成 求 取 mm 个 主 成 分 的 各 个 学 习 率 或 者 可 
以 用 作 求 取 m 个 主 成 分 的 4 的 单一 值 ， 见 式 (9-48). 

例 9.1 求 取 第 一 分 量 的 Oja 学 习 规 则 要 生成 1 000 个 零 均值 高 斯 随机 三 维 向 量 ， 其 中 x 分 量 
具有 单位 方差 ，y 分 量 和 z 分 量 的 方差 为 0.002。 在 随机 选择 初始 权 值 向 量 的 情况 下 ， 完 成 式 
(9-25) 所 给 出 的 离散 时 间 学 习 规 则 ， 网 络 在 726 次 迭代 后 收 人 鳅 ( 即 ， 没 有 必要 输入 所 有 的 
1 000 个 训练 向 量 )。 收 敛 是 通过 计算 权 值 向 量 在 更 新 之 前 和 之 后 的 差 的 L 范 数 来 确定 的 。 学 习 
率 参 数 根 据 式 (9-28) 自 适应 校正 ， 其 中 y= 1。 

在 图 9-2 中 ， 可 以 在 三 维 环境 中 观察 权 值 向 量 的 收敛 路 径 ， 其 中 圆圈 部 分 代表 初始 随机 权 
值 向 量 , 而 最 终 的 权 值 向 量 以 星 号 标记 。 通过 神经 网 络 计 算 的 最 终 权 值 向 量 为 wj” =[— 1.0000, 
一 0.000 2, —0.001 6]。 利 用 MATLAB ， 根 据 式 (9-19) 计算 的 协 方差 矩阵 C, 的 对 应 于 最 大 特 
征 值 (AM = 0.984 3) 的 特征 向 量 是 wy = [1.000 0， 一 0.000 2, 0.001 1)", ER, w" 5w" 基本 
相同 ， 只 是 相差 一 个 负 号 ， 这 种 情况 经 常 发 生 ， 因 为 符号 的 不 确定 与 特征 向 量 相关 。 如 图 9-2 
中 所 描述 ， 在 收敛 到 第 一 主 向 量 之 后 ， 所 示 的 方向 (图 中 的 实 线 ) 代表 最 大 方差 的 方向 。 最 
后 ,方差 ( 即 特征 值 ) 可 以 通过 于 中 的 数据 来 计算 ， 其 中 包含 1 000 个 样本 向量 ， 权 值 问 量 通 
过 神经 网 络 wi" 来 计算 ， 也 就 是 ， 

ANN = var(wh* X ) = 0.985 2 (9-29) 


以 上 计算 的 结果 与 使 用 MATLAB 计 算 的 特征 值 一 致 。 





-1 ~l 


图 9-2 例 9.1 中 的 样本 向 量 和 协 方差 矩阵 C, 的 第 一 一 主 特征 向 量 ( 权 值 向 量 ) 的 收敛 路 
径 ， 通 过 神经 网 络 自 适 应 计算 (遗忘 因子 Y= 1) 


在 我 们 继续 估计 其 他 若干 主 成 分 之 前 ， 需 要 讨论 一 下 学 习 规 则 [18, 40] 的 正规 化 问题 。 为 








了 展示 上 面 提出 的 Oja 学 习 规则 是 正规 化 的 Hebb 学 习 ， 可 以 从 如 下 的 典型 形式 的 Hebb 学 习 
(离散 时 间 标量 形式 ) 开始 

wi(k+ 1) = w(k) + UY (A) (9-30) 
其 中 j = 1, 2, …, m。 这 种 基本 形式 的 学 习 规则 导致 权 触 突 触 w OG = 1, 2, …, n) 的 无 限 增长 ， 
这 将 使 权 值 向 量 w 无 法 收敛 。 这 一 点 可 以 通过 在 自 适应 变化 突 触 权 值 的 学 习 规 则 中 加 入 一 些 正 
规 化 (或 者 饱和 ) 的 形式 来 克服 。 正 规 化 所 引起 的 神经 突 触 之 间 的 竞争 将 会 产生 稳定 性 。 利 
用 式 (9-30)， 可 以 将 合理 的 正规 化 形式 写成 
w(K)+Y WK y(K)x, (k) 





wi(k+ = (9-31) 


172 
Dw +Y mts | 
dl 


其 中 式 (9-31) 分 母 的 总 和 会 扩展 到 整个 与 神经 元 相关 的 突 触 系列 ， 可 塑性 系数 7 将 保持 
Oja[18] 的 方式 。 因 此 ， 式 (9-31) 表示 可 以 通过 截断 表达 式 的 需 级 数 展开 来 简化 正规 化 学 习 


1/2 
M. AA, RAMBA CHE, MWO Sow) =1。 第 二 , 将 


HK (9-31) 展开 成 为 关于 Y= OF REAP 
ee 

wik + D|,- dy 

一 -一 一 一 + 

0! 1! 

假定 yY<<1， 式 (9-32) 中 只 有 前 两 项 保留 。O(Y) 项 表示 7 的 高 阶 作用 ， 所 以 忽略 。 利 用 式 

(9-31) ， 式 (9-32) 的 第 一 项 可 以 写成 如 下 形式 。 








w(k+l)= y+ Oy’) (9-32) 




















WEH ww wy) 
0 a “iro "P (9-33) 
[$] 一 YY 一 
对 于 式 (9-32) 中 的 第 二 项 ， 可 以 在 式 (9-31) 中 定义 如 下 
au=w(D+7yHDy(Dx( 有 (9-34) 
同时 
1/2 
p-fÉ w osmoso | (9-35) 
j=l 
因此 有 ， 
ce ee ea) 
dy y=0 dy y=0 dy y=0 2 
1! y= By = YUKA) Lyk) x, (kK) — w; Coy (k) (9-36) 


将 式 (9-33) 以 及 式 (9-36) 的 结果 带 人 式 (9-32), Hey = Mee], AE BROW) 
项 ， 可 以 得 到 
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wk + 1)=w( + UODO y wO 对 于 j= 12 (9-37) 
这 是 用 于 估计 式 (9-27) 中 的 第 一 主 特征 向 量 的 Oja 离 散 时 间 标 量 形式 的 学 习 规 则 。 式 (9-31) 
中 的 正规 化 同样 可 以 通过 先 假定 可 塑性 系数 y= RFH, Ra, BREU, TUER 
到 式 (9-37) 中 的 近似 结果 。 


9.3.2 多 个 主 成 分 估计 一 一 对 称 子 空间 学 习 规 则 


一 种 若干 (m) 个 主 成 分 自 适 应 估计 情况 的 典型 方式 是 启发 式 地 扩展 用 于 估计 第 一 主 成 分 
Ojak E., AL WARES it REWER RAR (9-25) 中 的 权 值 向 量 ， 用 向 量 
ye 只 ”1 取代 标量 y 而 提出 的 。 但 是 ， 这 不 是 我 们 要 采用 的 方法 。 我 们 将 更 加 严谨 并 利用 与 以 
往 求 取 单 一 主 成 分 情况 下 的 学 习 规 则 相似 的 设置 来 导出 这 一 学 习 规则 。 

图 9-3 所 描述 的 首先 是 由 Karhunen 与 Oja [20, 26, 62] 一 起 提出 的 单 层 线性 神经 网 络 ， 这 也 
是 我 们 进行 推导 的 基础 。 式 (9-1) 的 原始 PCA 映 射 y = Wx 如 图 9-3 所 示 ， 可 以 估计 若干 (m) 
个 主 成 分 。 我 们 要 定义 误差 向 量 为 e =x 一 eR**!， 其 中 正如 式 (9-18) 给 出 的 ?= Wy =W We, 
同样 我 们 定义 误差 代价 ( 李 雅 普 诺 夫 ) 函数 如 下 

LEW) = heks ee = 5 (x —8)" (r= WI We -W Ws) 9-38) 
= ST 2x W Wax W WW Ws) 


m 个 处 理 单元 
y= Wx 
Yi Wi Wig ++» Win | 加 
J2 W21 Wn Won |} %2 
Ym Wmi Wn2 Wm x, 
ALAN: 
Yin = WmiXl + Wm2%2 + + Wan*n 





图 9-3 求 取 多 (m) 个 主 成 分 的 Karhunen 和 Oja 的 单 层 线性 神经 网 络 
自 适 应 估计 m 个 主 成 分 (或 者 主 特征 向 量 ) 的 连续 时 间 学 习 规则 可 以 使 用 最 速 下 降 梯度 方法 
[64，65]， 表 达成 矩阵 微分 方程 的 形式 如 下 
WO 
dt 


其 中 /是 学 习 率 参数 。 因 此 ， 式 (9-38) 的 梯度 L(W) 一 定 要 计算 。 为 了 完成 这 一 点 ， 我 们 需 
要 A.3.4.2 节 中 所 提出 的 对 标量 求 矩 阵 微分 的 两 个 一 般 结果 ， 也 就 是 ， 





= -HV yL(W) (9-39) 


2 ace(BAC) =B'C’ (9-40) 


以 及 


405 
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o Tm 
A trace(BA’C)=CB (9-41) 


通过 使 用 式 (9-40) 以 及 式 (9-41) 中 的 一 般 结果 以 及 适当 的 链 式 规则 ， 梯 度 L(W) 可 以 写成 
如 下 形式 


VwL(W) = 


aw- -Wxrr + Wxx W W — Wxx' + WW" Wor" (9-42) 


但 是 ， 式 (9-42) 中 最 右边 的 两 项 会 非常 快 地 逼近 0， 因 为 最 右边 的 项 WW 一 le R"*”"， 也 就 是 ， 
-Wxx" + WW’ Wxx" =0 (9-43) 
7 


因此 ， 使 用 这 一 近似 ， 式 (9-42) 中 的 梯度 可 以 带 入 到 式 (9-39), ， 从 而 得 到 如 下 形式 的 连续 
时 间 学 习 规 则 
BO. Z pW" O- WOWO (9-44) 
离散 时 间 的 学 习 规则 ， 可 以 写成 如 下 形式 
Wik + 1) = WE) + OWC" OU — W' (OWA)] (9-45) 
其 中 ， 我 们 认为 学 习 参数 是 自 适应 的 ， 即 RD。 式 (9-45) 中 的 离散 时 间 批量 学 习 规则 称 作 
Karhunen-Oja 对 称 子 空 间 学 习 规 则 [20, 41, 62]。 式 (9-45) 中 的 学 习 规则 同样 可 以 利用 已 定义 
的 误差 向 量 e =x -—x=x-W Wx 以 及 y = Wx， 写 成 如 下 形式 
Wk + 1) = WO + Wye" K) (9-46) 
这 说 明了 它 是 基于 误差 反 向 传播 的 学 习 算 法 。 在 式 (9-45) 中 权 值 更 新 表达 式 的 第 一 项 ， 即 
Wxx7， 就 是 直接 遵从 输入 数据 的 标准 Hebb 项 。 第 二 项 Wxx7 W W 是 非 线性 衰减 项 ， 它 确保 突 
触 权 值 矩阵 WW 接近 于 正 交 [20，41，62]。 
标量 离散 时 间 学 习 规 则 直接 从 式 (9-45)， 可 以 写成 如 下 


wk+D= rT -Ë w] (9-47) 


其 中 i = 1,2, 0, my j= 1, 2, 0, nA Tey (K) = wi (x(k). ER (9-47) h, Wki, m=1, F 
习 规则 可 以 化 简 成 式 (9-27) 的 Oja 单 一 处 理 单元 学 习 规则 。 

这 一 对 称 子 空间 学 习 规则 的 一 个 有 趣 方面 是 权 值 矩阵 环 的 行 向 量 并 没有 收敛 到 协 方差 卸 
阵 的 实际 主 特征 向 量 ， 却 收敛 到 了 C. 前 m 个 主 特征 向 量 的 线性 组 合 。 因 此 ， 神 经 网 络 学 习 由 m 
个 主 成 分 所 张 成 的 空间 。 但 是 ， 最 终 的 特征 向 量 w，( 其 中 i = 1, 2, …, m) 并 没有 在 实际 的 主 特 
征 向 量 的 方向 [37, 39]。 此 外 ， 式 (9-45) 或 式 (9-47) 中 的 学 习 规 则 可 以 导出 权 值 向 量 w， 
其 中 i = 1, 2, …, m， 其 所 张 成 的 子 空间 与 C, 的 前 m 个 主 向 量 的 一 致 。 但 是 ， 每 次 实验 都 是 不 同 
的 。 也 就 是 ， 在 训练 神经 网 络 之 前 ， 最 初 设置 的 条 件 和 用 于 训练 的 实际 数据 采样 将 决定 通过 
网 络 提取 的 正 交 向 量 的 最 终结 果 。 同 样 ， 和 使 用 Karhunen-Oja 对 称 子 空间 学 习 规则 求 取 的 特 
征 向 量 相关 的 特征 值 (方差 ) ， 倾 向 于 以 均匀 的 方式 分 布 。 因 此 ， 计 算 所 得 方差 并 不 是 协 方差 
矩阵 C, 实 际 的 特征 值 。 但 是 前 者 的 和 与 C. 的 实际 特征 值 的 和 是 相等 的 。 

在 前 一 节 ， 我 们 提出 了 一 种 用 于 求 取 m 个 主 成 分 的 带 有 用 户 自 定义 遗忘 因子 (7) 的 自 适 
应 改变 学 习 率 HK 的 方法 ， 如 式 (9-28) 所 示 。 这 一 自 适 应 方法 可 以 用 于 式 (9-45) RA (9- 
47) 中 的 对 称 子 空间 学 习 规则 的 学 习 参 数 。 另 一 种 只 需 计算 单一 学 习 参 数 ， 且 可 以 用 于 利用 
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A (9-45) 求 取 所 有 的 mm 个 主 成 分 的 可 选 的 方式 由 下 式 给 


1 
no- nor "Ook 对 于 k=1, 2,3, …, 和 0< 和 7y<1 (9-48) 
u(k~1) 
因此 ， 在 学 习 规 则 中 ， 学 习 率 参数 可 以 为 K(k) 或 者 1 (X)， 这 取决 于 所 用 的 更 新 方式 。 在 式 
(9-48) Bh, DIETA ARE (BB, maxly,|, Hei=1,2,--,m), 

接 下 来 的 两 个 PCA 学 习 算法 可 以 直接 通过 式 (9-47) 的 标量 对 称 子 空间 学 习 规 则 推导 出 
来 。 在 下 一 节 ， 式 (9-47) 中 将 首先 推导 标量 学 习 规则 ， 同 时 广义 的 Hebb 算 法 可 以 直接 由 这 一 
结果 推导 出 。 然 后 ， 可 以 从 GHA 学 习 规则 中 推导 出 Oja 的 随机 梯度 上 升 算 法 。 我 们 需要 指出 ， 
此 时 所 有 学 习 规则 的 标量 形式 都 是 可 以 在 并 行 神经 结构 中 实际 完成 的 形式 。 在 特殊 神经 网 络 
发 展 中 ， 这 些 算法 的 批量 形式 典型 地 用 于 分 析 和 操作 仿真 的 目的 。 


9.3.3 多 个 主 成 分 估计 一 一 广义 Hebb 算 法 


在 1989 年 ，Sanger[21，36] 提 出 了 一 种 学 习 规 则 ， 自 适应 提取 协 方差 矩阵 C, 的 前 m 个 主 特 
征 向 量 。 这 一 学 习 规 则 称 作 广义 Hebb 算 法 ， 它 可 以 从 式 (9-45) 中 Karhunen-Oja 离 散 时 间 学 
习 规 则 推导 而 得 到 。 我 们 将 首先 推导 式 (9-47)， 这 要 将 式 (9-45) 的 学 习 规 则 的 批量 向 量 矩 
阵 形式 写成 


wi(k+1)| |w (k) wi (k)x(k) 
wi (k+l) | _|w2(k) + hk) wy (k)x(k) 
witkt+l)| |wi wi (k)x(k) 


y(k) 


wi (k) 


x7 (OE WR wK), =x wa N| wa (K) 
YK) = Ly, K), Ya (BD Yn (KD 
wa (Kk) 
wi (k) y,(k) 
T 
n mO + uth) zW 
ma (k) Ya (k) 
walk) walk) > w(K) 
k k eee k 
42" O-DD. Wy O AL MAO 
Wat (k) Wn2(k) a W mn (k) 
m (9-49) 


m m 
Yn OCO, D waa dM Do wan OAO 
h=) b=] h=1 


> 
~d 





oo 
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因此 ， 由 式 (9-49) 可 以 将 标量 离散 时 间 形 式 的 Karhunen-Oja 的 对 称 子 空间 学 习 规 则 写成 如 下 形式 
wtD m+ py -Èw (9-50) 


其 中 ， i= 1, 2, "t, M3 j = 1, 2, vy M, 这 就 是 由 式 (9-47) 所 提出 的 表达 式 。 由 式 (9-49) 中 
的 表达 式 ， 我 们 可 以 将 学 习 规则 写成 


witk+l| [w k) wi (k) 


wi (k+1) |_| wh) w! (k) 


+ Lk), y(k)x" (k)— yk)" (k) (9-51) 


w(k+l)| |wi(k) wrk) 


Sanger 学 习 算 法 可 以 通过 式 (9-51) 利用 “打破 ”与 权 值 更 新 项 中 的 矩阵 ?0Dy (oO 相关 的 对 称 
来 推导 得 到 。 这 一 点 可 以 只 保持 对 称 答 阵 ?(Dy (的 下 三 角 部 分 来 完成 ， 也 就 是 ， 应 用 运算 
符 LT{y(Ry7 (kh)}， 其 中 LT{。) 选 择 矩 阵 下 三 角 部 分 ,包括 矩阵 的 对 角 线 元 素 [21]。 对 式 (9-51) 
PAIERO (有 AD 应 用 这 一 运算 符 ， 可 以 得 到 

w'(k+D]| [wi(k) | wi (k)|| wi (Co 


T T T T 
waked) O| wad yawo P e. 


walk+1)] |wk) nol wo 
ORO KORD … KOY Sw 
pO yrT LT OEO FR) yn wi 
ya (ORR Ym (KVR) … Yn Yn K) wR) 
wi (k) 
_| wz (k) 
wa(k) 


Yk ya Eyk) e 0 w3 (k) 


Vin IK) Yn DYA) e Yn Yn | wk) 


+ (kK) y(k)x" (k)- 





yi (Ly ow (A) 
yo(k)Ly (Awe (k)+yz(k)w3 (k)} (9-52) 
yw! (k)+y2(k)W3 (k)+y3(k)w3 (k)] 


Vn (KUY RW (k)+ya (kW (kt y3 (KW (kt yn (KWH (Kk)] 


因此 ， 式 (9-52) 中 Sanger 的 离散 时 间 标 量 PCA 学 习 规 则 可 以 写成 如 下 形式 


w,(k +1) = rT 3,09 ~ Sy 0 (9-53) 
h=l 
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其 中 i = 1, 2,…, m 以 及 j = 1, 2,…, n 

将 式 (9-53) 中 Sanger 的 GHA 学 习 规 则 与 式 (9-50) 中 Karhunen 与 0ja 的 对 称 子 空间 学 习 
规则 对 比 ， 我 们 发 现 唯 一 的 不 同 就 是 求 和 极限 。 通 过 分 解 对 称 的 y(Dy7( 口 ， 即 只 保留 式 (9-52) 
中 的 矩阵 的 下 三 角 部 分 ， 随 着 i 从 1->m， 式 (9-53) 中 求 和 的 项 数 也 依次 增加 ， 正 如 式 (9-52) 
所 述 。 对 于 式 (9-50) 的 对 称 子 空间 学 习 规 则 ， 随 着 i 从 1>m， 求 和 中 项 的 数目 是 常数 ， 即 m 
(前 m 个 主 成 分 ) 。 在 两 种 学 习 规 则 中 ， 在 求 和 极限 中 的 不 同 说 明了 Karhunen-Oja 对 称 子 空间 学 
习 规则 并 没有 提取 实际 的 主 特征 向 量 ， 而 是 作为 代替 线性 组 合 张 成 与 闫 个 实际 的 主 特征 向 量 相 
同 的 子 空间 。 而 式 (9-53) 中 Sanger 的 PCA 学 习 规 则 (GHA) 提取 协 方差 矩阵 C. [21，36] 的 m 
个 实际 的 主 特征 向 量 。 此 外 ， 已 经 证 明了 使 用 Sanger 的 GHA 学 习 规则 训练 的 神经 网 络 将 从 任 
何 的 随机 权 值 的 初始 集合 依照 特征 值 递 减 的 次 序 收敛 到 协 方差 所 阵 C， 的 特征 值 和 特征 向 量 
[39]。 同 Karhunen-Oja 对 称 子 空间 学 习 规 则 的 情况 一 样 ，Sanger 的 GHA 可 以 根据 式 (9-28) 或 
式 (9-48) 及 时 调整 自 适应 学 习 参 数 。 因 此 ， 在 学 习 规则 式 (9-53) 中 ， 学 习 率 参数 依赖 所 
采用 的 更 新 方式 ， 可 取 为 L(D 或 者 1(R)。 ` 

式 (9-53) 中 的 GHA 学 习 规则 也 可 以 写成 一 种 递归 向 量 的 形式 ， 如 下 


w,(k + 1) =w,(k) + p (Ay; (Kx: (k) (9-54) 

其 中 
x(k) = F; (k) — w: (Ky, (k) (9-55) 

同时 
Fok) = x(k) HFi=1,2, =, m (9-56) 


93.4 多 个 主 成 分 估计 一 一 随机 梯度 上 升 算法 


另 一 种 与 Sanger 的 GHA 算 法 紧密 相关 的 PCA 神 经 网 络 学 习 算法 是 由 Ojaf26] 提 出 的 随机 梯 
EEF (SGA) 算法 。SGA 学 习 算 法 可 以 从 GHA 直 接 推导 。 式 (9-53) 中 的 GHA 拥 有 相对 于 :i 
的 求 和 极限 。 在 SGA 算 法 中 ， 求 和 极限 看 作 是 分 解 式 (9-53) 中 的 求 和 极限 得 到 的 i 一 1， 如 下 


ye, (k)y, (k) => 之 ww+ w(K)y,(k) (9-57) 


如 果 式 (9-57) 的 右边 求 和 通过 标量 a 来 加 权 ， 那 么 Oja 的 离散 时 间 标 量 SGA 算 法 可 以 写成 如 
下 形式 


w;(k+1)= TT x09- w 00-a m4 HD (9-58) 
hel 


其 中 i= 1,2,…, m; j= 1,2,…,n 且 0 > 1 (一 般 取 为 c = 2)。SGA 算 法 相 比 GHA 算 法 的 一 个 主 
要 优点 是 在 来 取 较 少 的 支配 分 量 时 的 生 了 为 。 即 当 求 取 相 比 最 初 的 一 些 特征 向 量具 有 较 小 支配 
的 主 特征 向 量 时 ， 在 SGA 算 法 的 收敛 速度 比 GHA 算 法 好 。SGA 算 法 的 另 一 个 优点 是 它 可 以 简 
单 地 扩展 用 于 提取 次 分 量 [26]。 


9.3.5 多 个 主 成 分 估计 一 一 自 适应 主 成 分 提取 算法 


PCA 的 自 适应 主 成 分 提取 (APEX) 算法 基于 反 Hebb 学 习 ， 且 认为 是 去 相关 类 型 的 算法 
[40]。 首 先 由 Kung et al.[25, 30, 81] 提 出 的 APEX， 应 用 一 种 新 类 型 的 PCA 称 作 约束 PCA 
(CPCA) [661]。 以 并 行 方式 [67] 逐 次 从 输入 模式 中 求 取 协 方差 矩阵 C, 的 主 特征 向 量 ， 来 并 行 估 
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计 它 们 。 由 Bannour 和 Azimi-Sadjadi[68] 开 发 的 相关 方法 是 基于 压缩 变换 [96, 97]， 和 输出 结 点 
之 间 的 侧 向 连接 一 样 ， 它 使 得 他 们 的 方法 本 质 上 为 串 行 的 。 图 9-4 中 描述 了 线性 APEX 模 型 。 
这 一 结构 与 前 面 的 PCA 网 络 的 主要 不 同 在 于 










网 络 输出 处 额外 的 侧 向 连接 ， 如 图 9-4 所 示 。 “” NN 4 
这 些 侧 向 连接 产生 了 拓扑 布局 的 反馈 和 突 触 WZ» 
权 值 的 正 交 化 。APEX 结 构 的 另 一 特征 是 多 、 XAO Cmi a 
许 随 模型 的 大 小 而 生长 或 者 收缩 ， 而 不 用 重 SOK NV. 
新 训练 已 有 单元 。 也 就 是 ， 如 果 要 提取 一 个 SAC A 
或 者 更 多 的 附加 分 量 ， 附 加 神经 元 的 大 约 数 x LYN A n 
目 可 以 简单 地 与 以 前 的 模型 相关 联 。 KZ 
对 于 图 9-4 中 的 模型 ， 假 定 rc， ， MKS 
ye R”*!, CER"), 以 及 We R”**。 因此 ， Un 
两 种 不 同类 型 的 突 触 权 值 用 于 APEX 模 型 ， Vn , 
前 馈 连 接 权 值 W 和 侧 向 连接 权 值 C。 7 (=F Ym 





1. 前 馈 连 接 权 值 w;(R) = [w;,(K) wilk) … 
Wa (OY (i= 1,2,…,m) (其 中 mm 是 希望 提取 
的 主 成 分 数 )， 是 与 从 输入 到 线性 神经 元 分 枝 相关 的 突 触 。 前 馈 突 触 权 值 的 适应 性 是 与 标准 的 
Hebb 学 习 相 一 致 的 ， 其 中 连接 组 成 了 兴奋 信号 ， 因 此 只 要 自我 放大 。 

2. 侧 向 连接 权 值 由 单个 神经 元 输出 到 所 有 的 连续 神经 元 所 组 成 的 连接 分 支 相关 联 ， 其 中 i = 1, 
2,…, m 一 1， 因 此 考虑 网 络 接受 的 反馈 〈 见 图 9-4) 。 侧 向 连接 权 值 的 适应 是 根据 反 Hebb 学 习 
来 执行 的 。 
反馈 (或 者 侧 向 ) 连接 权 值 矩阵 可 以 写成 


图 9-4 包含 线性 处 理 单元 的 并 行 APEX 模 型 


0 0 0 0 0 0 ci(k) 
Cy, (k) 0 0 0 0 0 c,(k) 
Cy(k) c3 (k) 0 0 0 0 c,(k) (9-59) 
Ck) =| Cay (k) coalk) €43(K) 0 0 0 =| ¢,(k) 
Calk) Calk) clk) csalk) 0 0 


cs(k) 


Cm (k) Cm (k) cn3(k) Cna (kK) Cus (kK) ne C mm-1 (K) ¢,,(k) 


Bre, ceR' "T? (i= 1,2, +, m) 就 是 矩阵 C 的 行 向 量 。 式 (9-59) 中 所 描述 的 矩阵 C 的 第 一 
行 的 所 有 分 量 均 为 0， 因 为 并 没有 与 第 一 神经 元 相关 的 侧 向 连接 。 此 外 ， 第 一 主 特征 向 量 (w) 
的 提取 是 根据 0ja 的 单一 神经 元 学 习 规 则 来 执行 的 ， 如 式 (9-25) (参照 9.3.1 节 )。 式 (9-59) 
的 侧 向 权 值 用 作 连 续 地 减 掉 主 成 分 信息 ， 如 根据 下 式 训 练 每 一 个 连续 的 神经 元 ( 见 图 9-4) 


yi (© = wi (x(k) — c; (K(k) (9-60) 
其 中 i = 1, 2,…, m， 且 y(k) = WCEx(K)。 侧 向 连接 权 值 根据 如 下 的 反 Hebb 学 习 规 则 来 更 新 
cilk + 1) = c; (k) + ply, Cy” K — yi ke, (k)] (9-61) 


其 中 i = 2, 3, …, m (i 从 2 开始 ， 因 为 侧 向 连接 权 值 矩 阵 C 的 第 一 行 向 量 ， 即 ,假定 为 包含 全 部 0 
值 分 量 )。 前 馈 连 接 权 值 根据 下 式 的 标准 Hebb 学 习 规 则 来 更 新 
w; (k + 1)=w(k) + uiy; x(k) — y kw; oO] (9-62) 
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其 中 i = 1, 2, …, m。 学 习 率 参数 在 两 个 更 新 方程 ( 即 式 (9-61) 与 式 (9-62)) 中 假定 是 相同 
的 。 在 Kung et al.[30]， 提 出 了 两 个 不 同 的 自 适 应 主 成 分 求 取 的 结构 ， 即 并 行 APEX 与 顺序 
APEX。 假 定 以 下 是 一 个 并 行 APEX 模 型 的 算法 。 这 一 模型 同 神经 类 型 的 学 习 更 加 协调 ， 它 就 
是 并 行 处 理 。 

并 行 APEX 算 法 小 结 


步骤 1 REARS MY > 0, 可 以 是 一 个 国定 值 ， TETTE 个 足够 小 的 值 ， 或 者 可 以 通 
it M Kung#Diamantaras(69], Kung et al.[30] 以 及 Haykin[40] 所 提出 的 方法 来 提前 计算 
(估计 )。 此 外 ，A 还 可 以 使 用 式 (9-28) 的 方法 迭代 计算 ， 在 Kung et al.[301 中 也 提 及 。 

步骤 2 随机 初始 化 王 以 及 C， 同 时 令 k= 1。 

PRS 对 于 i = 1， 计 算 

yi(k) = w5 (k)x(k) (9-63) 
其 中 wi 是 前 馈 连 接 权 信 算 阵 W 的 第 一 行 窗 量 ， 根 据 Oja 的 学 习 规 则 更 新 单一 神经 元 模型 的 第 
一 突 触 权 值 向 量 ， 也 就 是 
wilk + 1) = wik) + ub (Ox) -yw weR (9-64) 
步骤 4 ”对 于 i = 1, 2,…, m， 计 算 


y(k) = W(x) (9-65) 
E ARAH HA PWE) = [wi (k) wk) We OT, Aye R”, RE RAK (9-60) 
计算 
y: (k) = wi (k)x(k) — € (yk) (9-66) 
BREA (9-62) 计算 前 馈 连 接 权 值 的 更 新 ， 也 就 是 ， 
wi(k + 1) = w; (k) + uly: axlk) — yi w O (9-67) 
最 后 ， 根 据 式 (9-61) 计算 侧 向 连接 权 值 的 更 新 ， 也 就 是 ， 
c,(k + 1) = c, (k) + ply, Oy’ (k) — yie, K) (9-68) 


步骤 5 VAT RM MA, WARE, koe AAO. 
PRS RWHP, Aik, FN SRS 





对 于 上 面 提 到 的 并 行 APEX 学 习 算法 ， 协 方差 矩阵 C。 的 主 特征 向 量 按照 特征 值 递减 的 顺序 
求 取 。 同 样 ， 如 果 全 部 N 个 零 均值 输入 向 量 已 经 测量 并 且 保 存 ， 也 就 是 ,下 = {x(k)}e RR"*” 
(= 1 2, …, NN)， 以 上 提 及 的 算法 可 以 用 于 离线 情况 。 也 就 是 ， 每 个 训练 回合 将 包含 全 部 N 
个 样本 [x(, = 1, 2,…, NM]， 对 于 总 共 M 个 训练 回合 ， 这 一 过 程 可 以 从 步骤 2 一 步 6 重 复 ， 
直到 王 中 的 权 值 收敛 (或 者 全 部 NM 个 重复 出 现 的 x 个 输入 向 量 )。 对 于 离线 训练 过 程 ， 在 第 一 
训练 回合 之 后 ， 在 步骤 2， 且 以 及 C 设 置 为 前 面 训练 回合 的 值 。 

已 经 提出 的 各 种 PCA 神 经 网 络 可 以 看 作 正 交 特 征 的 检测 器 ， 这 是 统计 模式 识别 的 一 个 基 
本 问题 。 这 一 过 程 与 哺乳 动物 的 大 脑 是 相似 的 ， 可 以 编码 包含 在 输入 模式 中 的 大 量 相互 独立 
的 数据 。 例 如 ， 当 人 类 看 到 一 幅 复杂 的 画面 时 ， 数 据 空间 转换 为 特征 空间 。 但 是 ， 转 换 设 计 
成 便于 用 简化 数目 的 有 效 特 征 来 表示 数据 集 ， 这 些 特征 中 包含 了 大 部 分 的 数据 固有 的 信息 内 
容 ， 即 维 数 缩 碱 ，PCA 可 以 完成 [40] 得 足够 精确 。PCA 可 能 是 在 多 元 分 析 中 最 早 且 最 知名 的 技 
术 。 它 首先 由 Pearson[98] 提 出 的 ， 他 利用 PCA 在 生物 设置 中 重新 计算 线性 回归 分 析 [4] 。 

例 9.2 ”用 PCA 解 决 图 像 编 码 问 题 [21, 40, 99-1041。 用 于 图 像 编 码 的 技术 相对 简单 5 
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Sanger[21] 所 使 用 的 方法 相似 ， 同 时 也 在 Haykin[40] 中 提 过 。 图 9-5 是 一 般 图 像 分 解 成 8 x 8 的 非 
重合 的 区 块 布局 图 。 本 例 中 使 用 的 数字 化 图 像 由 240 x 352 的 8 位 像素 组 成 。 图 中 的 每 一 个 像素 
都 是 介 于 组 成 256 级 灰 度 [0, 255] 中 的 一 个 整数 值 ， 其 中 255 代 表白 色 ，0 代 表 黑 色 。 如 图 9-5 所 
描述 ， 图 像 中 1320 个 8 x 8 的 区 块 中 的 每 一 个 ， 即 Q (i = 1, 2, …, 30 以 及 ij = 1, 2, …， 44), 由 
TA 

Xx, 三 vec(Q/;) = [(oO Op， Mig)(M21, M22, …， 28) (Ogi O82, “7 Wss)]' (9-69) 
生成 训练 向 量 (4 = 1, 2, …, 1 320), Als, 13204 x, 向 量 中 的 每 一 个 都 是 64 x 1 维 的 〈 见 
A.2.17 节 )。 协 方差 矩阵 C, 的 近似 值 可 以 根据 式 (9-19) 来 计算 ， 也 就 是 ， 


N 
C.= Elx]? LSe 对 于 N = 1 320 (9-70) 
q=l 


352 个 像素 





图 9-5 非 重叠 的 图 像 编 码 处 理 ， 其 中 每 8 位 像素 对 应 一 个 256 等 级 灰 度 范围 


两 种 用 于 提取 C, 的 主 特征 向 量 的 PCA 方 法 如 下 : 直接 特征 值 分 解 (EVD) 方法 (参照 7.6 
节 以 及 9.2 节 ) 和 神经 网 络 方法 ， 也 就 是 使 用 0ja 的 对 称 子 空间 学 习 算 法 。 无 论 使 用 什么 方法 ， 
一 日 提取 了 C, 的 主 特征 向 量 ， 这 些 向 量 集 就 可 以 用 于 图 像 单 元 的 编码 。 也 就 是 ， 可 使 用 16 : 1 
的 编码 率 来 观察 对 图 像 的 编码 效果 。 对 于 一 个 16 : 1 编码 率 ， 每 一 图 像 单元 只 有 64 个 主 特征 向 
量 中 的 前 四 个 用 于 估计 每 一 单元 中 的 图 像 特 征 。 因 此 ， 转换 矩阵 如 同 式 (9-3) 中 的 W = [wi， 
Woo ts Wl’, HEH = 4。 一 个 单元 图 像 特征 的 估计 是 根据 式 (9-18) 来 确定 的 ， 也 就 是 ， 

£,= W Wx, (9-71) 


其 中 gq = 1,2, …, 1320， 也 就 是 图 像 的 每 一 个 单元 。 在 图 像 编码 步骤 完成 以 后 ， 图 像 必 须 重 构 。 
这 是 通过 简单 的 执行 “逆向 量 ” 操 作 来 实现 的 ， 也 就 是 式 (9-69) 中 过 程 的 逆 操作 。 当 对 每 
一 个 连续 的 单元 完成 逆 操 作 之 后 ， 用 近似 来 重建 图 像 的 每 一 单元 ， 也 就 是 ， #,20,. 

图 9-6a 所 示 图 像 编码 之 前 原始 的 老虎 的 图 像 ， 图 9-6b 中 则 是 在 每 一 个 图 像 单元 使 用 了 16 : 1 
( 即 ， 使 用 EVD 方法 的 前 四 个 主 特征 向 量 ) 的 编码 过 程 之 后 ， 然后 如 上 所 述 重建 的 老虎 图 像 。 
对 比 图 9-6 中 的 两 幅 图 像 ， 对 应 于 图 9-6a 中 的 原始 图 像 ， 可 以 发 现 图 9-6b 中 老虎 的 编码 图 像 是 
可 辨识 的 。 
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图 9-6 a) 用 于 编码 处 理 的 240 x 352 的 8 位 像素 的 原始 老虎 图 像 ，b) 使 用 16 : 1 的 编码 
率 编码 a) 中 的 图 像 。 即 ，EVD 方 法 中 只 有 4 个 主 特征 向 量 保留 用 于 编码 


图 9-7 描 述 的 是 前 四 个 用 于 编码 图 9-6b 中 的 老虎 图 像 的 8 x 8 的 掩 码 ( 主 特征 向 量 ) 。 使 用 
Sanger 的 GHA 方 法 也 可 以 获得 相同 的 结果 ， 其 中 使 用 64 个 输入 ，4 个 神经 元 单 层 神经 网 络 (如 
图 9-3 所 示 ) 并 使 用 式 (9-53) 中 的 学 习 规则 进行 训练 。 作 为 以 上 描述 结果 的 对 比 ， 使 用 相同 
的 单 层 神经 网 络 结构 但 使 用 Karhunen-Oja 的 对 称 子 空间 学 习 规 则 进行 训练 。 对 于 老虎 图 片 的 
编码 结果 如 图 9-8 所 示 。 对 比 使 用 EVD 方法 (Sanger GHA) 的 图 9-6b 和 使 用 Karhunen-Oja 的 
对 称 子 空间 学 习 算法 编码 相同 图 的 图 9-8， 我 们 可 以 发 现 两 幅 编码 图 片 具有 相似 的 质量 。 图 9-9 
描述 了 使 用 Karhunen-Oja 的 对 称 子 空间 学 习 规则 编码 图 9-6b 中 老虎 图 像 的 前 四 个 8 x 8 的 掩 码 。 
尽管 在 图 9-7 和 图 9-9 中 掩 码 有 很 大 的 不 同 ， 但 在 图 9-6b 和 图 9-8 中 显示 的 编码 图 像 非常 相似 。 
即使 Karhunen-Oja 的 对 称 子 空间 学 习 规 则 并 没有 推导 出 协 方差 矩阵 C, 的 实际 主 特征 向 量 ， 被 
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提取 的 突 触 网 络 权 值 还 是 可 以 与 主 特征 向 量 张 成 相同 子 空间 的 主 特征 向 量 线性 集合 。 





图 9-7 a)~d) 利用 EVD 方法 对 图 9-6a 中 的 老虎 图 像 提取 的 四 个 8 x 8 掩 码 。 这 些 是 式 
(9-70) 所 给 出 的 协 方差 矩阵 的 前 4 个 主 特征 向 量 





图 9-8 图 9-6a (240x352 的 8 位 像素 ) 中 的 图 像 使 用 16 : 1 的 编码 率 编码 ， 即 在 使 用 
Karhunen-Oja 的 对 称 子 空间 学 习 算法 中 只 有 4 个 主 特征 向 量 保留 用 于 编码 


为 了 说 明 使 用 0ja 的 对 称 子 空间 学 习 规则 训练 的 神经 网 络 的 泛 化 能 力 ， 将 图 9-9 中 描述 的 老 
虎 掩 码 用 于 编码 原 神经 网 络 中 未 见 过 的 不 同 的 图 像 。 结 果 如 图 9-10 所 描述 ， 其 中 图 9-10a 是 原 
始 水 果 图 像 而 图 9-10b 是 图 9-10a 中 的 水 果 图 像 使 用 Karhunen-Oja 对 称 子 空间 学 习 规 则 按 16 : 1 
的 编码 率 ( 见 图 9-9) 的 老虎 掩 码 编码 的 结果 。 显 而 易 见 ， 老 虎 与 水 果 图 像 是 统计 相似 的 ， 
为 相对 较 好 的 编码 性 能 ， 在 图 9-10b 中 是 很 明显 的 ， 当 图 9-9 中 的 老虎 掩 码 应 用 于 水 果 图 像 的 
编码 [如 图 9-10a 所 示 ]， 所 产生 的 编码 水 果 图 像 如 图 9-10b 所 示 。 
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图 9-9 a)~d) 图 9-6a 所 描述 的 老虎 图 像 使 用 Karhunen-Oja 的 对 称 子 空间 学 习 算法 训练 
的 神经 网 络 学 习 的 四 个 8 x 8 的 掩 码 





图 9-10 a) 用 于 编码 处 理 的 拥有 240 x 352 个 8 位 像素 的 原始 水 果 图 像 ，b) 图 2) 中 的 图 像 是 利用 Karhunen- 
Oja 对 称 子 空间 学 习 规 则 的 神经 网 络 学 习 的 (图 9-9) 老虎 掩 码 来 进行 的 编码 率 16 : 1 编码 的 结果 
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9.3.6 非 线 性 主 成 分 分 析 (NLPCA) 和 和 鲁 棱 PCA 
在 前 面部 分 提 到 的 标准 线性 PCA 起 源 于 对 于 几 个 不 同 的 信号 表示 问题 的 最 佳 解决 方案 ， 


1. 在 正 交 约束 条 件 下 ， 即 WW” = Ie RR”*” 时 线性 (变换 后 ) 方差 E{[wix]} 或 者 线性 网 络 
输出 的 最 大 化 。 

2. 均 方 表达 误差 E{llz 一 x} 的 最 大 化 ， 基 中 输入 数据 x 的 近似 值 可 以 通过 较 低 维 的 线性 子 
空间 xX = W Wx 给 出 。 

3. 对 于 在 正 交 化 变换 WW” = 1 之 后 的 不 同 神经 元 ， 对 线性 网 络 的 输出 y; = wi x 去 相关 性 问 
题 ， 其 中 i = 1 2, …, m。 

4. 表示 焕 最 小 化 问题 。 

与 相关 的 假设 以 及 条 件 约束 相关 联 的 最 佳 PCA 解 的 来 源 可 以 在 [41] 中 找到 。Karhunen 和 
Joutsensalo[41] 证 明 线 性 PCA 作 为 这 些 不 同 信息 表示 问题 的 最 佳 解 ， 事 实 上 是 因为 这 个 解 基于 
输入 仅 为 二 阶 统 计量 。 线 性 PCA 神 经 网 络 以 及 相关 的 学 习 算 法 在 一 些 条 件 [41] 下 ， 由 于 以 下 限 
制 而 失去 了 吸引 力 : 

1. 标准 PCA 网 络 有 能 力 实 现 只 有 线性 输入 /输出 的 映射 。 

2. 可 以 通过 知名 的 数值 方法 来 有 效 地 计算 标准 PCA 中 所 需 的 特征 向 量 。 梯 度 类 型 的 神经 
PCA 学 习 算法 典型 地 收敛 速度 较 慢 。 对 于 大 型 问题 ， 为 了 达到 较 好 的 精确 度 需 要 额外 数量 的 
3. 主 成 分 使 用 数据 协 方差 或 者 相关 性 唯一 地 定义 。 这 些 输入 的 二 阶 统计 量 完全 可 以 通过 
高 斯 数据 以 及 稳 态 线性 处 理 操作 来 表示 。 

4. 线性 PCA 网 络 不 能 经 常 从 子 信 号 的 线性 混合 中 分 离 出 独立 的 子 信号 。 

如 果 PCA 类 型 的 网 络 包含 非 线性 ， 那 么 这 一 设置 将 变 得 更 加 适合 二 神经 实现 ，(1) 输入 / 输 
出 映射 一 般 情况 下 是 非 线 性 的 ， 这 正 是 我 们 一 般 情况 下 使 用 神经 网 络 的 一 个 主要 判断 依据 ， 
因此 数据 的 处 理 也 更 加 有 效 ，(2) 神经 算法 相对 于 经 典 的 PCA 方 法 更 加 具有 竞争 力 ，(3) 使 用 
非 线 性 隐 含 的 也 将 高 阶 统 计 引 入 了 计算 当中 ，(4) 标准 PCA 网 络 的 输出 一 般 是 不 相关 的 但 也 不 
是 独立 的 ， 后 一 点 在 某 些 情况 下 会 更 加 期 望 ,， PCA 网 络 附加 非 线 性 因素 会 增加 输出 的 独立 性 ， 
因此 ， 输 入 信和 号 某 些 时 候 有 必要 同 它 们 的 混合 相 分 离 (Karhunen 以 及 Joutsensalo[41])。 线 性 
PCA 的 推广 可 以 使 标准 神经 PCA 算 法 产生 和 鲁 棒 性 以 及 非 线性 扩展 。 通 过 考虑 最 优化 问题 的 泛 
化 而 推导 出 的 结果 学 习 算 法 ， 导 致 标准 PCA 可 以 分 成 两 类 [41]: APCAH (70-73, 105] LA 
及 非 线 性 PCA (NLPCA) 算法 [42-47, 52, 60, 61, 63, 106, 107], 

定义 鲁 棒 PCA， 以 便于 优化 的 标准 增长 速度 少 于 二 次 方 ( 即 ， 非 二 次 方 最 优化 标准 )， 约 
东 条 件 与 标准 PCA 解 是 一 致 的 。 非 二 次 方 最 优化 标准 将 非 线 性 引入 梯度 算法 。 这 使 得 结果 对 
有 色 噪 声 和 数据 出 格 点 更 加 具有 重 棱 性 [7, 12]。 因 此 ， 源 于 非 二 次 方 最 优化 标准 的 梯度 算法 
比 其 线性 相对 的 部 分 ( 即 ， 二 次 方 性 能 标准 )， 变 得 更 加 具有 和 鲁 棒 性 。 更 特殊 地 ， 二 次 方 性 能 
标准 十 分 注重 来 源 于 强烈 的 噪声 元 素 或 者 出 格 点 的 大 误差 值 。 相 反 地 ， 非 二 次 方 标准 在 强 噪 
声 和 出 格 点 情况 下 会 是 一 个 更 好 的 选择 ， 因 为 它 比 二 次 方 函数 增加 得 更 加 缓慢 ， 且 受 较 大 误 
差 干 扰 的 影响 更 小 。 同 样 ， 非 二 次 方 最 优化 标准 允许 考虑 输入 相关 联 的 较 高 阶 的 统计 [43， 
107-1101。 如 果 只 使 用 二 阶 统计 ， 一 些 重要 的 问题 就 不 能 够 适当 解决 。 典 型 地 ， 神 经 网 络 的 
权 值 向 量 ， 即 展开 的 基 向 量 ， 要 求 相互 正 交 。 和 鲁 棒 PCA 问 题 的 设置 一 般 会 导致 稍微 非 线 性 的 
学 习 算 法 ， 其 中 非 线 性 特性 在 网 络 结构 中 只 会 出 现在 已 经 选择 的 位 置 上 [41]。 也 就 是 ， 至 少 鲁 
棒 PCA 网 络 的 一 些 神经 元 输出 将 仍然 拥有 线性 反应 y = wix, i = 1, 2, …, m， 其 中 w; 是 第 i 个 神 
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经 元 的 权 值 向 量 。 


相反 ， 在 非 线 性 PCA 结 构 中 ， 网 络 神 经 元 的 所 有 输出 都 包含 非 线 性 的 特性 [ 即 g(y;) = gw? 


x)， 其 中 g(: ) 是 已 选择 的 非 线 性 特性 ]， 最 优化 标准 仍然 可 以 公式 化 成 一 个 二 次 方 函 数 ， 如 线 
性 PCA 中 的 例子 。 较 之 上 面 描述 的 前 两 种 ， 更 加 普遍 的 第 三 种 非 线 性 PCA 神 经 网 络 是 基于 非 
二 次 方 最 优化 标准 的 ， 正 如 鲁 棒 PCA 算 法 ， 且 非 线性 特性 在 所 有 的 输出 神经 元 中 都 出 现 ， 这 
正如 非 线 性 PCA 算 法 中 的 情况 。 在 Karhunen 和 Joutsensalof41] 中 ， 在 方差 最 大 化 以 及 均 方 误差 
最 小 化 的 问题 中 ， 可 能 最 重要 的 单个 结果 就 是 知名 的 Sanger[21] 的 广义 Hebb 算 法 (参照 9.3.3 
节 ) 的 推导 ， 还 有 它 的 鲁 棒 性 以 及 非 线 性 的 副本 。 提 取 数 据 的 统计 独立 特征 的 相关 方法 可 以 
在 Parra et al.[111] 处 找到 ， 这 是 非 线性 的 独立 成 分 分 析 [112-114] (参照 10.8 节 ) 以 及 偶 对 的 非 
线性 独立 成 分 分 析 [115]。 

NLPCA 网 络 的 一 种 对 称 结构 如 图 9-11 所 示 ， 其 中 反馈 连接 (以 虚线 标 出 ) 在 网 络 经 过 训 
练 以 后 就 被 移 除 了 。 因 此 ， 网 络 此 时 是 严格 的 前 馈 结构 。 另 一 个 NLPCA 结 构 是 图 9-12 所 示 的 
分 层 结构 。 同 对 称 结构 一 样 ， 反 馈 连 接 也 在 网 络 训练 后 被 移 除 。 包 含 非 线 性 特性 的 PCA 网 络 
存在 不 足 如 下 : (1) 许多 学 习 规则 的 数学 分 析 通 常 比 线性 PCA 网 络 固有 的 困难 更 多 。 因 此 ， 带 
有 非 线性 特性 的 网 络 特征 通常 很 难 理解 。(2) 非 线性 学 习 算 法 更 加 复杂 ， 且 可 能 偶尔 导致 收敛 
到 一 个 局 部 最 小 值 。(3) 给 网 络 增加 非 线性 特性 并 不 一 定 能 避免 一 些 问题 。 因 此 ， 不 能 随意 地 
将 非 线 性 特性 引入 PCA 网 络 。 其 他 NLPCA 的 结构 ， 例 如 ， 递 归 推 广 和 伴 有 侧 向 连接 [45] 的 非 
线性 PCA 结 构 。 





图 9-11 对 称 非 线性 PCA 神 经 网 络 结构 。 其 中 反馈 连接 (虚线 ) 只 在 训练 阶段 是 必要 的 


如 前 所 述 ， 和 鲁 棒 PCA 神 经 网 络 将 非 线性 引入 到 了 相关 的 梯度 算法 中 , 后 者 拥有 “和 鲁 棒 化 ” 
关于 冲击 和 有 色 噪 声 以 及 数据 出 格 点 的 神经 网 络 的 作用 。 也 就 是 ， 公 式 化 非 二 次 方 最 优化 标 
准 倾向 于 通过 对 输入 数据 向 量 较 少 的 作用 来 抵制 带 来 相对 较 大 的 误差 的 出 格 点 的 影响 。 在 
1992[58] 线 性 PCA 神 经 网 络 的 非 线性 扩张 已 进行 了 探索 性 地 讨论 ， 但 是 直到 1993 年 才 在 数学 
基础 上 实际 提出 了 和 鲁 棒 PCA 类 型 的 神经 网 络 [42, 70-73]。1993 年 以 后 ， 许 多 关于 和 鲁 棒 PCA 的 研 
究 结 果 [41, 43-48, 74] 得 到 报道 。 这 三 种 类 型 的 鲁 棒 PCA 神 经 子 空间 学 习 算法 要 归功 于 
Karhunen 和 Joutsensalo[41, 43, 44, 48, 70, 71, 74, 75], 


> 
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图 9-12 分 层 的 非 线性 PCA 神 经 网 络 结构 。 其 中 反馈 连接 (虚线 ) 只 在 训练 阶段 是 必要 的 


为 了 使 提出 的 每 种 情况 直接 符合 Karhunen 和 Joutsensalo 的 要 求 ， 现 在 把 突 触 权 值 矩 阵 定 义 
成 WeR""， 同 时 零 均值 随机 向 量 的 输入 为 xe R“!， 输 出 为 ye R"*'。 三 个 鲁 棒 PCA 子 空间 离 
散 时 间 学 习 算 法 可 以 由 方差 最 大 化 问题 或 者 最 小 化 表示 误差 标准 推导 而 出 ， 并 可 以 写成 如 下 
形式 


Wk + 1) = Wek) + UOL — WOW (k) (Rg Ex” (kK) WOK) (9-72) 
Wk + 1) = Wk) + mk) {x(k)gle” (OIW) + gleki” (kK) W(k)} (9-73) 

其 中 
elk) = x(k) — x(k) = x(k) — WOW (x(k) = H — WOW (k) x(k) (9-74) 

以 及 
Wk + 1) = Wk) + wgle(k) x7 (AWK) (9-75) 


在 式 (9-72), R (9-73) ARK (9-75), wh) > 0 是 控制 学 习 率 的 增益 参数 。 学 习 参 数 可 以 
根据 式 (9-28) 和 式 (9-48) 自 适应 改变 每 一 个 步骤 。 这 些 鲁 棒 PCA 学 习 算 法 可 以 由 两 个 不 同 
的 性 能 标准 推导 。 例 如 ， 首 先 式 (9-72) 中 的 学 习 规则 可 以 通过 与 方差 最 大 化 问题 相关 的 性 
能 标准 来 推导 ， 其 中 方差 最 大 化 问题 可 以 修改 成 如 下 形式 (其 中 对 于 每 一 个 wi i = 1, 2, m) 


Jw) = wl) Aww, -6,) (9-76) 
jel 


它 将 被 最 大 化 。 只 考虑 瞬时 输入 ， 从 而 ， 期 望 运 算 符 从 式 (9-76) 中 撤销 ， 计 算 梯度 。 在 式 
(9-76) 中 ， 史 是 克 罗 内 克 A， 右 边 的 第 一 个 项 〈 即 ， 条 件 期 望 ) 要 被 最 大 化 此 时 神经 元 权 
值 向 量 是 正 交 的 ) , 同时 求 和 要 求 拉 格 朗 日 乘 子 iv = 图 满足 必要 的 正 交 的 约束 ( 即 , wiw = 6). 
PERRO) 是 偶 函 数 ， 非 负 ， 可 连续 求 导 (几乎 是 处 处 )， 且 了 (0)<P/2， 其 中 对 于 较 大 的 咱 
严格 不 等 。 此 外 ， 唯 一 的 最 小 值 发 生 在 1 = OW, BRIO! > ltl, WEDS SE). ER (9-76) 
中 的 标准 比 二 次 的 增长 长 得 慢 ， 至 少 对 于 较 大 值 是 这 样 ， 同 时 标准 可 以 以 向 量 和 矩阵 的 形式 写 
成 更 加 简洁 如 下 


J,(W) = 1 EGf[W’x]1 W}+ Z race AWW - D) (9-77) 
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其 中 全 1 向 量 1 = (1, …, 1] 拥 有 合适 的 维 数 ， 且 矩阵 A 的 元 素 是 41; TK (9-72) 中 的 鲁 棒 PCA 学 
习 规 则 可 以 通过 式 (9-77) 推导 得 到 ， 且 8g(D BLO 的 导数 ， 即 df(D/d。 注 意 ， 如 果 8(D =t, 这 
是 导致 式 (9-45) (参照 9.3.2 节 中 ) Karhunen-Oja 的 线性 对 称 子 空间 学 习 规 则 的 一 个 特例 。 然 而 ， 
根据 式 (9-45) 中 的 突 触 权 值 逢 阵 定义 的 方式 做 出 合适 的 解释 ， 也 就 是 We RR", Alek, w (9- 
77) 的 标准 是 方差 最 大 化 问题 的 一 个 推广 ， 导 出 式 (9-72) 的 细节 可 在 [41, 43, 60] 中 找到 。 

式 (9-73) 和 式 (9-75) 中 的 鲁 棒 PCA 学 习 规则 可 以 由 表达 误差 141, 70, 71] 的 推广 而 推 得 ， 

即 ， 求 最 小 化 的 相关 性 能 标准 以 向 量 矩 阵 形式 表示 如 下 

JAW) = VE{ f [e]} = WEL f [x —x]} = 1 E{ f [x W Wxr]W) (9-78) 
函数 f(t) 必须 满足 前 面 给 出 的 类 似 条 件 。 由 式 (9-78) 中 广义 表达 误差 标准 ， 导 出 式 (9-73) 
和 式 (9-75) 的 细节 可 在 [43, 75] 中 找到 。 注 意 ， 在 式 (9-73) 中 ， 对 于 每 一 个 权 值 向 量 , 更 
新 表达 式 中 右边 的 第 一 项 ， 也 就 是 zx(Dgfe7 (DTW(O 只 与 数据 输入 向 量 成 比例 。 因 此 ， 它 可 以 
消去 ， 从 而 直接 导出 式 (9-75) 中 的 简化 学 习 规 则 [70]。 同 样 ， 在 式 (9-73) 中 的 鲁 棒 PCA 学 习 
规则 中 ， 如 果 g(1) = 5， 此 时 这 一 学 习 规则 可 以 独立 地 最 小 化 均 方 误差 ， 这 是 Xu[761 和 
Russof77] 里 期 研发 的 标准 PCA 子 空间 学 习 规 则 的 特殊 情况 。 

非 线性 的 选择 是 任意 的 (考虑 它 是 偶 函 数 ， 非 负 ， 连 续 可 微 ) 。 但 是 ， 我 们 将 只 提 及 
Karhunen 和 Joutsensalo[43] 用 到 的 三 种 更 常见 的 。 这 些 是 二 次 函数 f(D) = 上 2， 线 性 标准 .P(D = 
lel, DAB ARE ACD = In[1/2(e' + e 一 )]。 图 9-13 分 别 给 出 了 这 三 种 函数 的 坐标 图 。 每 一 种 印 数 对 
于 的 相应 导数 可 以 以 如 g1(1) =t, gD = sgn(1) 相近 的 形式 分 别 计算 ，[ 其 中 sgn(D 表示 正 负 号 
函数 ， 或 者 ! 的 符号 ]， 以 及 8g:(D = tanht。 每 一 非 线性 的 导数 如 图 9-14 所 示 。 
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图 9-13 用 于 式 (9-76) 和 式 (9-77) 的 性 能 标 图 9-14 图 9-13 中 的 三 个 非 线 性 函数 的 导数 
准 的 典型 非 线 性 (LO), EEAO = P2， (gp), deg (Nn =t, g) = sgl), 
FAO = 以 及 f(D = In[1/2(e' + e 1) LA Regt) = tanh 


例 9.3 ”对 比 式 (9-72) 中 的 鲁 棒 PCA 子 空间 学 习 规则 的 性 能 和 式 (9-45) 中 的 Karhunen- 
Oja 对 称 子 空间 学 习 规则 的 性 能 。500 个 三 维 零 均 值 随 机 高 斯 向 量 产生 在 zx，y，z 方 向 的 方差 分 
别 为 ac2= 5，o2 = 3，a2-= 0.2。 理 论 上 ， 相 关 的 协 方差 矩阵 的 对 角 线 上 的 特征 值 与 三 个 分 量 的 
方差 是 相等 的 。 使 用 Karhunen-Oja 的 对 称 子 空间 学 习 规 则 和 和 鲁 棒 PCA 子 空间 学 习 规 则 时 ， 首 先 
遇 到 的 问题 是 计算 前 面 两 个 张 成 wy 平面 中 子 空间 的 主 特征 向 量 。 然 后 ， 通 过 使 用 参考 坐标 系 中 
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的 z 轴 ， 计 算 共 面 的 rz，y 向 量 (被 两 个 不 同 的 神经 网 络 学 习 ) 的 法 分 量 的 角度 的 余弦 。 这 个 角 
度 是 500 个 三 维 向 量 中 的 300 次 独立 试验 中 的 平均 值 ， 即 ，500 个 三 维 向 量 是 每 次 实验 中 随机 产 
生 的 。 此 外 ， 对 于 每 一 次 试验 $00 个 随机 向 量 要 求 输入 到 两 个 神经 网 络 两 次 ， 也 就 是 ， 每 次 实 
验 两 个 训练 回合 。 使 用 Karhunen-0ja 的 对 称 子 空间 学 习 规 则 ， 这 个 角度 的 余弦 是 cos( 和 ko) = 
0.9993， 而 使 用 鲁 棒 PCA 子 空间 学 习 规 则 时 ， 这 个 角度 的 余弦 是 cos( 和 ros ) = 0.9743。 对 于 这 两 
个 神经 网 络 ， 都 使 用 了 式 (9-48) 中 提出 的 自 适应 学 习 参 数 方法 ， 其 中 遗忘 因子 赋值 为 0.95。 

但 是 ， 这 并 没有 说 明和 鲁 棒 PCA 子 空间 学 习 规 则 的 鲁 棒 性 。 因 此 ， 进 行 另 一 个 相似 的 试验 ， 
其 中 产生 的 随机 向 量 有 0.9 概 率 来 自 相同 的 高 斯 分 布 ， 而 0.1 概 率 来 自 于 间隔 [一 10, 10] 之 间 均 
匀 分 布 并 被 冲击 噪声 所 破坏 的 高 斯 随机 向 量 。 虽 然 数 据 的 方差 是 根据 oz = 5 + (20”)(0.1)/12， 
= 3+ (20)0.1/12, GF =0.2 + (20?)(0.1)/12 来 改变 的 ， 但 是 理论 上 ， 主 子 空间 是 保持 不 变 的 ， 
即 zy 平 面 。 在 训练 两 个 神经 网 络 之 后 〈 使 用 这 个 问题 的 第 一 部 分 中 的 相同 方法 ， 不 计 冲 击 噪 
声 ) ， 在 两 个 结论 中 都 要 求 计算 法 线 (为 了 提取 子 空间 而 计算 的 ) 和 参考 坐标 框架 中 的 z 轴 之 
间 的 角度 的 余弦 。Karhunen-Oja 对 称 子 空间 神经 网 络 的 结果 推导 出 cos( 和 xo ) = 0.9317， 而 使 
用 和 鲁 棒 PCA 子 空间 学 习 规 则 时 ， 这 个 角度 的 余弦 是 cos( ros) = 0.9865。 因 此 ， 对 于 冲击 噪声 
破坏 数据 的 情况 ， 和 角 棒 PCA 子 空间 神经 网 络 可 以 推导 出 比 Karhunen-Oija 对 称 子 空间 神经 网 络 
更 好 的 结果 。 图 9-15 描 述 了 当 有 冲击 噪声 破坏 数据 时 ， 和 鲁 棒 PCA 子 空间 神经 网 络 的 结果 。 
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图 9-15 当 有 10% 来 自 于 间隔 {一 10, 10] 之 闻 均 匀 分 布 的 高 斯 随机 数据 被 冲击 噪声 所 破坏 
时 ， 和 鲁 棒 PCA 子 空间 神经 网 络 的 结果 。 向 量 w, 与 w: 是 由 神经 网 络 学 习 的 ， 计 算 的 
角度 余弦 给 出 为 cos(Znwos) = 0.9865， 与 之 对 比 的 Karhunen-Oja 对 称 子 空间 神经 网 
络 的 结果 中 ，cos( 和 ko) = 0.9317。“ 点 划 线 ”代表 参考 坐标 系 
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很 多 种 数据 回归 方法 组 成 了 化 学 统计 学 [7, 8,，11， 14] 领 域 。 化 学 统计 学 方法 广泛 地 应 用 于 
分 析 化 学 中 的 光谱 数据 [116, 117] 的 定量 分 析 。 这 里 介绍 两 种 多 元 回归 方法 ， 基 于 PCA 的 主 成 
分 回归 (PCR) [4,6-8] 和 部 分 最 小 二 乘 回 归 (PLSR) [7-14]， 将 在 下 一 节 中 提 到 。 基 本 问题 
是 校准 模型 以 适应 在 特殊 系统 中 采集 的 经 验 数 据 。 目 的 是 利用 PCR 或 者 PLSR 开 发 双 线 性 模型 
[71， 通 过 将 数据 的 特征 空间 压缩 成 只 保持 数据 中 的 基本 信息 的 简化 的 数据 空间 ， 这 样 校准 模 
型 关于 它 的 预示 性 能 得 到 最 优化 。 也 就 是 说 ，PCR 和 PLSR 都 认为 是 基于 方法 [7, 8，10-13] 的 因 
子 分 析 (或 者 秩 化 简 )， 它 们 可 以 通过 训练 过 程 推 导出 一 种 校正 模型 ， 然 后 ， 其 可 用 于 在 假定 
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模型 测试 输入 时 预测 某 些 量 。 近 来 ，Ham 以 及 Kostanic[9] 已 经 将 PLSR 十 分 成 功 地 应 用 于 工程 
信号 的 处 理 问 题 。PCR 已 经 同样 应 用 于 频率 估计 的 超 分 辩 率 算法 当中 ， 即 ， 多 元 信号 分 类 
(MUSIC) 和 最 小 范 数 方法 [2]。 

经 典 的 最 小 二 来 (CLS) 

经 典 的 最 小 二 乘 (CLS) {4, 6, 7, 12] 在 PCR 之 前 简单 地 讨论 过 ， 下 面 将 在 这 两 种 方法 之 间 
作出 对 比 ， 并 在 下 一 节 中 同样 将 CLS 与 PLSR 进 行 对 比 。 假 定 存在 线性 关系 ， 即 向 量 heR*'， 
在 以 如 下 和 握 阵 形式 给 出 的 一 组 自 变量 (独立 变量 块 ) 之 间 ， 其 中 和 (eR"*” 

Xalk) Xo(k) 7 Xn (kK) 
X(k)= Xalk) Xalk) > Xp, (K) (9-79) 


x(k) X, (k) eo xX (k) 


ERARE, MRE RAR (依赖 变量 块 ) ， 由 此 ， 我 们 可 以 
写 出 
YK) = X" (Oh (9-80) 
EREXO PREA AB: He BSE Bt AUT Te IE, EXC) 中 的 列 向 量 不 一 定 要 
线性 独立 。 但 是 ， 式 (9-79) 中 的 X(A HOF AE SS Re R” 的 影响 ， 即 ， 
N(k) 的 每 一 列 是 零 均值 白 序 列 ， 同 时 N(R) 的 协 方差 矩阵 可 以 使 用 式 (9-19) 中 的 表达 式 通过 
Cy ~ (MNENE R"*" 来 近似 。 因 此 ， 式 (9-79) 中 的 X(k) 的 测量 可 以 写成 如 下 
Z(k) = X(k) + N(k) (9-81) 
其 中 Z(ke RK", XO 列 中 的 信息 是 未 知 的 。 但 是 ，Z(k) 包含 X(k) ORAM. By 
的 估计 利用 Z(b 可 以 写成 
yk) =Z" (kg (9-82) 
其 中 ge R”™!, PER" ', Kk, APES (9-82) 中 的 线性 关系 g， 使 得 测量 的 变量 
Z(k) MATESO 的 估计 相关 联 。 为 了 实现 这 一 点 ， 可 以 采用 经 典 的 最 小 二 乘 方法 ， 通 过 首 
先 定义 如 下 形式 的 误差 变量 
elk) = yK) =H) (9-83) 
其 中 e(De R, EMR (9-83)， 二 次 方 性 能 测量 可 以 定义 为 
J, =e (Welk) (9-84) 
m 
它 将 关于 8 最 小 化 。 但 是 ， 式 (9-84) 中 的 正定 对 称 权 值 矩阵 We R”"， 可 以 看 作 m x m 的 单位 
‘KE, HUW = 已， 因为 所 有 的 误差 认为 是 平等 加 权 的 。 因 此 ， 式 (9-84) 可 以 写作 
J, =} e" (elk) = Hy) OF Ly(k)— SK) (9-85) 
m m 
将 式 (9-80), 3È (9-81) 以 及 式 (9-82) 代入 式 (9-85) 得 到 
1 


J, = Lyk) HON TK) HOO] 


=| Exc x" oh-2s" xorohjre>xoxrwke | nonw he (9-86) 
m m m m 


=h"Ch—-2g"Cyht+g'Cyg te Cg 
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其 中 C,= OMAX (e R ERAO H EEREN, ARENGE) 和 X(k) 是 不 相关 
a, BN, 


E[n(k)x’ (k)] = Efx(k)n" (k)} = 0 (9-87) 
对 式 (9-86) 求 取 关于 8 的 偏 导 数 ， 并 令 结果 等 于 0， 如 下 
wd, 9 
—£ =—(h'C,h—2g'C ht g'C, "Cy, 
3z az g Cyh+g Cxg+g Cre) (9-88) 


=-2C ,h+2C,¢+2Cyg =0 
从 式 (9-88) 中 求解 出 g 如 下 
g=(Cy+Cy) 'Cyh (9-89) 
为 了 从 式 (9-89) 中 确定 8g， 需 要 了 解 关 于 未 受 损 的 测量 矩阵 Cx 和 测量 噪声 Cw 的 协 方差 年 阵 ， 
还 有 介 于 未 受 损 的 测量 X(k) 和 因 变 量 y(k) 之 间 的 线性 关系 h。 然 而 ， 这 些 量 通常 是 未 知 的 ， 但 
是 用 CLS 方 法 可 以 推导 出 g， 仅 使 用 包含 在 受 损 测 量 Z() 和 如 下 形式 的 与 式 (9-89) 直 接 相 联 系 的 
因 变 量 y(R){4, 118] 中 的 信息 。 
g = [ZOZ (kK) Zy (9-90) 
这 可 以 首先 利用 式 (9-81) ARRENE 和 X(k) 之 间 是 不 相关 的 ， 来 写 出 协 方差 矩阵 Z(6 的 
近似 如 下 ' 


C, = ZOZ =E XOX (+ ENONT KC, +C (9-91) 
ni m m 


式 (9-91) 的 逆 给 出 了 式 (9-89) 中 表达 式 的 第 一 部 分 。 接 下 来 ， 使 用 因 变 量 y(k) 随同 测量 数 
Zk) 中 的 信息 ， 我 们 可 以 得 到 


L Zok) = E Xoxo =C,h (9-92) 
m m 


利用 式 (9-80), 3& (9-81)， 再 一 次 假设 N(k) 和 X(R) 是 不 相关 的 。 式 (9-92) 中 的 表达 式 给 出 
TH (9-89) 中 的 第 二 部 分 。 因 此 ， 从 式 (9-91) 和 式 (9-92) 的 结果 中 ， 可 以 发 现 式 (9-89) 
和 式 (9-90) 之 间 的 关系 。 

有 一 点 十 分 重要 ， 就 是 实现 式 (9-90) 中 的 CLS 的 结果 ， 使 用 在 受 损 测量 Z(X) 和 因 变 量 
yk) 中 所 有 可 能 的 信息 。 但 是 ， 存 在 许多 很 不 如 意 的 情况 ， 会 导致 数据 [7，118] 的 过 适应 。 
也 就 是 ， 在 展开 式 (9-90) 中 模型 8 的 过 程 中 ， 模 型 参数 可 能 不 只 基于 与 经 验 数据 Z(K) 和 
y(k) 相关 的 必要 的 因果 关系 特征 ， 而 且 包 含 数据 中 不 希望 的 效果 。 这 将 导致 不 良 预 测 性 能 的 
模型 。 这 些 不 希望 的 效果 可 能 与 测量 噪声 或 者 任何 其 他 与 分 析 者 丝毫 不 感 兴趣 的 因果 关系 现 
象 的 额外 数据 特征 相关 。 广 义 上 讲 ， 这 些 效果 可 以 看 作 是 噪声 ， 因 为 现象 的 本 质 不 会 认为 是 
先 验 已 知 的 。 因 此 ， 利 用 回归 方法 (该 方法 有 能 力 在 可 以 使 模型 性 能 降低 的 数据 中 ， 没 有 模 
糊 效果 的 先 验 知 识 的 情况 下 ， 作 出 严格 的 选择 ) ， 推 导出 带 有 改良 预测 性 能 的 校准 模型 ， 只 
需要 使 用 经 验 数据 的 这 些 特征 。 主 成 分 回归 是 一 种 可 以 通过 与 这 种 回归 技术 相关 的 因子 分 析 
能 力 ， 做 出 严格 选择 的 方法 。 典 型 地 ， 经 过 PCR 展 开 的 结果 校正 模型 较 之 CLS 模 型 具有 更 佳 
的 预测 性 能 。PCR 的 细节 将 在 下 面 介绍 ， 在 下 一 节 将 提出 部 分 最 小 二 乘 回归 的 细 市 。 典 型 地 ， 
PLSR 将 推导 出 较 之 PCR{7, 10] 更 好 的 预测 性 能 。 这 里 性 能 加 强 的 根本 原因 将 在 下 一 节 进 行 解 
释 (参照 9.5$ 节 ) 。 
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主 成 分 回归 

在 介绍 PCR 之 前 ， 我 们 定义 数据 和 托 阵 为 4e 喷 ”……“， 如 同 前 面 Z0o 的 定义 ， 其 中 4 的 每 一 个 
行 向 量 都 是 一 个 特殊 的 测量 ( 即 ， 总 计 m 个 测量 )， 每 个 测量 拥有 相同 数量 的 分 量 ( 即 ， 每 个 
测量 中 总 共有 n 个 分 量 )。 对 于 自 变 量 块 4 的 用 法 与 在 文献 中 的 发 现 更 加 一 致 ， 因 为 4 特别 地 涉 
及 到 光谱 吸收 数据 [1191， 即 使 这 并 不 是 必需 的 情况 。 事 实 上 ， 和 扼 阵 4 实际 可 以 包含 任何 测量 
数据 。 因 此 ， 时 间 索 引 K 被 委 弃 了 。 但 是 ， 如 果 包 含 在 4 中 的 数据 是 光谱 数据 ， 那 么 这 就 暗示 
每 一 个 测量 由 * 个 光谱 频率 或 者 波 数 [119] 组 成 。 另 一 方面 ， 如 果 4 中 的 每 一 行 是 时 间 域 的 测量 ， 
那么 每 一 行 就 有 n 个 时 间 采 样 组 成 ， 其 中 是 时 间 索 引 。 同 样 ， 因 变量 块 ， 前 面 提 及 的 ?( 口 ， 现 
在 指定 为 ce%"!。 这 样 ， 再 一 次 与 文献 中 出 现 的 大 部 分 符号 更 加 地 一 致 ， 因 为 向 量 中 的 每 
一 个 元 素 通常 对 应 一 个 中 心 值 ， 专 门 为 每 一 个 用 分 光 光 度 计 17] 收 集 的 样 例 谱 而 测量 。 然 而 ，e 
的 分 量 可 以 是 可 独立 确定 的 任意 目标 值 ， 它 直接 与 对 应 的 自 变 量 块 中 行 测量 相关 ， 即 4 矩阵 。 
我 们 将 只 讨论 单 分 量 情形 [7]， 即 矩阵 4 的 被 测 数据 中 ， 只 有 一 个 感 兴趣 分 量 的 情况 。 这 就 是 c 
中 的 目标 值 只 形成 列 向 量 而 不 是 矩阵 的 原因 。 同 样 ， 这 一 符号 将 随后 用 于 下 一 节 关 于 PLSR 的 
讨论 。 

正如 前 面 对 二 CLS 的 描述 ， 这 一 方法 的 主要 问题 关系 到 保留 所 有 包含 在 经 验 数 据 中 以 及 
用 于 开发 校准 模型 的 信息 ， 见 式 (9-90)。 至 少 还 有 两 种 问题 关系 到 这 种 开发 校准 模型 的 方法 : 
(1) 如 果 数 据 算 阵 A 中 存在 共 线性 [7]( 即 ， 线 性 依赖 ， 其 中 一 个 独立 变量 可 以 精确 地 或 者 近似 
地 表示 成 与 另 一 个 变量 的 线性 组 合 ) ， 那 么 474 将 是 病态 的 [96]。 此 外 ， 对 于 没有 测量 噪声 的 情 
况 ， 存 在 精确 的 重复 测量 ，(474) 可 能 不 存在 。(2) 即使 4 不 是 基线 性 的 ， 但 是 ， 如 果 n 非 党 
的 大 (样本 分 量 以 及 频率 数 )， 那 么 计算 4 4 的 逆 需 大 量 的 计算 。 因 此 ， 我 们 十 分 希望 拥有 一 - 
种 方法 (或 者 一 些 方法 ) 对 于 共 线 性 不 十 分 敏感 ， 不 需要 很 大 量 计算 ， 同 时 可 以 在 经 验 数据 中 
只 使 用 相干 信息 ， 这 样 校准 模型 并 不 包括 不 希望 的 效果 ， 因 此 ， 当 同 CLS 进 行 对 比 时 ， 从 中 发 
现 其 加 强 的 预测 性 能 。PCR 和 PLSR 都 是 这 样 的 方法 。 即 ， 它 们 基于 因子 分 析 ( 秩 简化 ) [7]。 

在 PCR 的 情况 中 ， 我 们 打算 开发 -种 校正 模型 ， 它 可 以 顶 测 浓度 6， 假 设 测试 输 入 到 在 开 
发 中 没有 用 到 的 模型 。 此 外 ， 我 们 希望 在 模型 开发 中 使 用 相同 的 数据 的 情况 下 ，PCR 校 正 模 
型 与 CLS 校 正 模型 相 比 ， 拥 有 更 好 的 预测 能 力 。 因 此 ， 我 们 假定 对 于 开发 校正 模型 是 可 行 的 
自 变量 块 4 拥有 以 下 形式 


aale -a (9.93) 


其 中 4 中 的 每 一 行 对 应 于 一 个 可 能 被 噪声 破坏 的 测量 。 与 每 一 个 测量 相关 的 目标 值 ( 因 变 量 块 ) 
在 列 向 量 中 给 出 如 下 


c= [cu co ts Cn)! (9-94) 
如 果 假 设 在 自 变 量 块 和 因 变量 块 {4,c} 之 间 存 在 线性 关系 ， 即 
b, eR"! (9-95) 
我 们 可 以 写 出 
c=Ab,+e, (9-96) 


其 中 eve 吕 ”是 误差 向 量 ， 说 明了 所 有 误差 ， 包 括 测 量 噪声 。 式 (9-96) 的 CLS 解 可 以 通过 误 
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差 代 价 函 数 〈 李 雅 普 诺 夫 函数 ) 对 于 by 最 小 化 来 得 到 ， 即 


> 
—_ 


Lib,)= 5 le, I= lle— Ab, i (9-97) 
它 可 以 导出 结果 
by as = (ATA) 4re (9-98) 
其 中 bj se N ERAWCLSB ERD, Hem>n ( 即 ， 较 之 每 一 个 测量 中 的 分 量 ， 有 更 多 
或 者 相等 数量 的 测量 存在 )。 这 被 认为 是 超 定 的 情况 [2, 96]。 但 是 , 如 果 m <n( 欠 定 的 情况 [2, 96])， 
那么 CLS 校 正 模型 可 按照 式 记 cs = 47(447)-'c 来 进行 计算 。 这 一 模型 现在 可 以 用 于 预测 因 变量 ， 
假定 一 组 没有 用 于 开发 校正 模型 的 独立 数据 如 {A Cej HPAe E R” AR Ce ER, B 
CrestCLS = Å est Bros (9-99) 
但 是 ， 正 如 前 面 所 提 到 的 ， 存 在 一 些 与 CLS 方 法 相关 的 基本 问题 。 主 要 问题 是 4 中 经 验 数 据 的 
所 有 特征 用 于 开发 式 (9-98) 中 的 校正 模型 ， 包 括 可 能 的 噪声 以 及 其 他 的 不 希望 的 模糊 效应 。 
注意 到 ， 为 便利 起 见 ， 对 于 用 于 开发 校正 模型 ( 即 ， 训 练 阶段 ) 矩阵 4， 将 下 标 “train” 省 略 ， 
这 将 成 为 暗 指 。 这 也 应 用 于 式 (9-98) 中 的 因 变 量 块 c。 
然而 ，PCR (以 及 PLSR) 基于 随后 的 经 验 数据 表示 。 即 ， 自 变量 块 写成 分 解 的 形式 ， 如 下 
A=TB+E, (9-100) 
在 式 (9-100) H, BER" 包含 装载 向 量 (或 者 装载 谱 ) ， 行 向 量 表示 ji 个 向 量 的 新 PCA 基 组 
(其 中 1 是 保留 的 因子 数目 ， 将 在 随后 解释 ) 。 对 于 PCA 的 情况 , BOTEREA A ( 协 方差 矩阵 ) 
的 〈 主 ) 特征 向 量 ， 是 正 交 的 ， 假 定 m 之 n ( 超 定 情况 )。 因 此 ，B 的 行 向 量 可 以 使 用 9.3.2 ~ 
9.3.6 节 中 提 到 的 任何 方法 或 者 EVD 方 法 来 得 到 。 对 于 m 个 测量 中 的 每 个 ，Te R” EEA 
PCA 装 载 向 量 的 新 坐标 系 下 的 强度 (评分 或 者 隐 式 变量 ) E. R, E, eR" 是 测量 (或 
者 谱 ) 残余 矩阵 ， 并 不 适应 最 优化 模型 。 因 此 ， 在 式 (9-100) 中 ， 拢 阵 4 可 以 写成 7 列 向 量 和 
B 的 行 向 量 的 外 积 ， 加 上 测量 残余 矩阵 E54 的 线性 组 合 。 也 就 是 ，4 = 34 _ b+ E,, Kp È 
T 的 强度 列 向 量 ，5, 是 B 的 装载 行 向 量 (4 = 1, 2, …, h) | 
PCR 实 际 土 由 两 个 基本 的 步骤 组 成 : PCA (数据 压缩 ) ， 即 主 特征 向 量 的 最 优 数 目 选择 ， 
以 及 使 用 PCA 结 果 建 立 的 校正 模型 ， 即 回归 步骤 。 一 般 情 况 下 , 疡 < m、n， 存 在 简化 数目 的 
强度 。 但 是 ， 为 了 最 优化 校正 模型 ，PCR (或 者 PLSR) 的 因子 优化 数目 必须 确定 。 这 就 是 为 
人 们 所 知 的 PCR 和 PLSR 共 同 拥有 的 因子 分 析 能 力 。 当 因子 的 最 优化 数目 被 选择 后 ， 就 导出 最 
小 化 的 数据 的 压缩 ， 引 发 噪声 以 及 其 他 模糊 效果 。 数 据 中 的 噪声 典型 地 分 布 于 所 有 的 装载 向 
量 (大 部 分 是 高 阶 向 量 ) ， 而 未 受 破坏 的 测量 内 容 一 般 集 中 于 前 面 的 极 少数 。 
PCR (以 及 PLSR) 的 第 二 个 一 般 的 关系 涉及 到 新 坐标 系 中 使 用 强度 (或 者 评分 ) BRET, 
并 可 写成 与 式 (9-96) 相似 的 关系 。 也 就 是 ， 我 们 现在 得 到 的 
c=Tvte, (9-101) 
其 中 veR**! 是 回归 系数 (或 者 内 联 关系 ) [7, 10], sk (9-101) 中 ， 很 明显 并 不 存在 与 CLS 
相关 的 问题 。 对 于 PCR 方 法 以 及 m 之 n， 且 假定 在 式 (9-100) 中 残余 (E,) 足够 小 ， 可 以 对 式 
(9-100) 用 B" 右 乘 式 子 两 边 得 到 如 下 : 
TBB' = AB’ (9-102) 
然而 ， 因 为 年 阵 B 的 行 向 量 (包含 装载 向 量 ) 是 正 交 的 ， 即 BB7 =1,, WR (9-102) 可 以 写成 
如 下 形式 
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T =AB" (9-103) 
将 式 (9-103) 代入 式 (9-101) 推导 出 
c=AB'v+e, (9-104) 
如 果 定 义 误差 代价 函数 如 下 
Lv) =5 I e, IÈ (9-105) 
对 于 回归 系数 向 量 v 最 小 化 上 式 ， 这 将 导出 最 小 二 乘 解 
v = (BA'AB’)'BA‘c (9-106) 


其 中 v 可 以 看 作 是 因子 空间 中 的 校正 模型 。 但 是 ， 如 果 对 于 CLS 问 题 对 比 式 (9-104) 中 的 模 
型 同 式 (9-96) 中 的 原始 模型 ， 可 以 发 现 
bpcr = B'o = B'(BATAB') 'BATc (9-107) 
对 于 CLS 模 型 所 os， 比较 式 (9-107) 中 的 项 (BATAB’)~'eR"** xk (9-98) 中 相关 项 ， 也 就 
Æ, A'A ER", Fh < n 计 算式 (9-107) 中 的 校正 模型 bpcre RW”*!， 相 对 于 CLS，PCR 
方法 具有 较 小 的 计算 强度 。 
因此 ， 如 果 选 择 PCR 因 子 (A) 的 最 优 数目 ， 同 时 保持 根据 式 (9-107) 计算 PCR 校 正 模型 ， 
那么 ， 一 般 结果 模型 比 式 (9-98) 中 使 用 CLS 开 发 的 校正 模型 具有 较 好 的 预测 性 能 。 如 同 CLS 
的 情况 ，PCR 校 正 模型 bj pcx 可 以 用 于 预测 自 变 量 ， 假 定 一 系列 没有 用 于 开发 校正 模型 的 独立 
测试 数据 ， 并 考虑 {4icy, Cabs FPA ce RP" ee R, BA 
CuespcR = Aces jecr (9-108 ) 
当 m < n( 欠 定 情况 )，B 的 行 向 量 (包含 装载 向 量 ) 也 是 474 的 (CE) 特征 向 量 ， 式 (9-107) 
中 的 表达 式 还 可 以 用 于 计算 PCR 校 正 模型 bipcra。 但 是 ， 必 须 注意 选择 主 特征 向 量 ， 因 为 对 于 
久 定 情况 ，474 的 特征 向 量 并 没有 张 成 4 的 完整 行 空间 。 因 此 ， 使 用 奇异 值 分 解 (参照 A.2.14 
节 ) 来 计算 474 的 特征 向 量 可 能 是 最 佳 的 。 
有 两 个 问题 仍然 没有 得 到 解答 。 因 子 的 最 佳 数目 怎样 选择 以 及 校正 模型 的 预测 性 能 怎样 
可 以 定量 的 估计 ? 首先 回答 第 二 个 问题 ， 因 为 第 一 个 问题 的 答案 依赖 于 第 二 个 答案 ， 也 就 是 ， 
将 演示 定量 估计 校正 模型 性 能 的 方法 。 我 们 已 经 讨论 了 相对 于 PCR，CLS 的 预测 性 能 。 然 而 ， 
我 们 并 没有 提出 一 种 用 于 定量 的 确定 性 能 的 方法 。 一 种 普遍 应 用 于 确定 校正 模型 性 能 的 方法 ， 
例如 对 于 PCR， 可 以 预测 未 知 的 浓度 ， 或 者 因 变量 c， 其 中 假定 一 系列 没有 用 于 计算 校正 模型 
的 测试 数据 ， 这 就 是 标准 预测 误差 (SEP) [7]。 使 用 一 系列 独立 的 测试 数据 {4 ww, cesj，SEP 
可 以 定义 成 


mea 1/2 
SEP = bus 一 Cites y mas (9- 109) 
i=l 


其 中 ci es 是 测试 数据 有 兴趣 的 引用 (实际 ) ABS HE, es 是 ci es 的 PCR (或 者 PLS) 预测 〈 估 
it), btm. 是 测试 测量 的 总 数 。 为 了 完整 性 ， 我 们 同样 定义 一 个 相似 的 性 能 测量 用 来 计算 
用 于 开发 校正 模型 的 训练 数据 {Awsn, Crin ， 进 行 计算 。 这 称 作 标 准 误差 校正 (SEC) [7], 为 
MAKEHE {A ains cuin} 可 以 定义 成 


M train o, 一 人 . 27”? 
sec | $ (Civain Citrain ) | (9-110) 


Mirain 7 h 一 1 


i=l 


> 
we 





心 
we 
we 
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其 中 是 cy wa 是 训练 数据 有 兴趣 的 引用 (实际) AEST, Ê; uain 是 ec mn 的 PLC 预 测 CET)» Maran 
是 训练 测量 的 总 数 ， 同 时 h 是 PCR (或 者 PLSR) 因子 数目 ， 包 括 在 式 (9-110) 的 分 母 中 ， 因 
为 对 于 训练 的 数据 ， 引 了 附加 因子 使 恕 罚 必 须 置 于 校正 模 型 的 预测 性 能 中 。 因 此 ， 式 (9-110) 
实际 上 表示 一 个 对 于 训练 数据 加 权 的 性 能 测量 。 换 名 话说， 通过 在 式 (9-110) 的 分 母 中 引入 
hh， 正如 更 多 的 PCR (或 者 PLSR) 因子 附加 到 模型 ， 当 逆 推 训练 数据 的 时 候 ， 模 型 的 预测 性 
能 必须 能 够 说 明 这 一 增加 ， 因 此 ， 最 小 化 数据 的 过 过 应 [7, 118], 

最 优 因 子 数 目的 选择 

现在 可 以 提出 最 优化 PCR 因 子 的 选择 问题 了 。 这 里 提出 的 方法 也 可 以 以 相似 的 方式 应 用 
于 PLSR。 式 (9-109) 中 的 SEP 性 能 测量 可 以 用 于 确定 PCR 因 子 加 的 最 优 数 目 ， 以 继续 PCR 校 
正 的 开发 ， 即 由 式 (9-107) 给 出 的 bpcr。 在 第 一 种 方法 中 ， 它 可 能 是 应 用 最 普遍 的 ， 校 正 模 
型 也 pcr (h = 1, 2, …, q) 是 使 用 训练 数据 集 {wwin, cwin} 作 为 PCR 因 子 所 产生 的 。 假 定 拥有 4 个 
校正 模型 集 ， 对 于 hh = 1, 2,…, q, b per 的 测试 数据 集 {4,ow, ciow} 用 于 估计 每 一 个 校正 模型 的 预 
测 性 能 。 使 用 式 (9-109) 中 的 关系 ， 对 于 校正 模型 推导 出 的 ce 的 每 一 个 预测 ， 计 算 SEP， 即 
6 ow 对 于 h = 1, 2, …, 9， 使 用 4,。。 通 过 把 SEP 值 当 作 PCR 因 子 q 的 数量 函数 来 观察 ， 以 此 确定 
hr 的 选择 。 典 型 地 ， 与 观察 到 的 最 小 SEP 相 关 的 因子 的 数目 将 指出 PCR 因 子 的 最 优 数目 ， 即 
加， 如 下 所 示 

h° = {h : SEP pin = min{SEP(h)}Vh = 1, 2, =, h°, =, q} (9-111) 


这 种 选择 最 优 数 目 PCR 因 子 产 的 方法 称 作 独立 检验 。 但 是 ， 在 使 用 式 (9-111) 必须 注意 ， 
为 绝对 最 小 值 可 能 导致 这 样 一 个 结果 : 它 可 能 人 允许 保留 与 潜在 噪声 [7] 相 关 的 附加 因子 。 因 此 ， 
必须 小 心地 估计 每 一 情况 ， 以 协调 实际 保留 的 PCR 因 子 的 最 优 数目 。 在 某 些 情况 下 ， 式 (9- 
111) 的 绝对 最 小 值 并 不 是 最 佳 选择 ， 很 多 时 候 ， 一 个 小 于 绝对 最 小 值 的 因子 可 以 给 出 最 佳 的 
整体 性 能 [7]。 

另 一 种 可 以 用 于 选择 保留 的 PCR (或 PLSR) 因子 数目 的 方法 称 作 交叉 确认 [7, 8]。 交 又 确 
认 经 常 称 作 每 次 保留 一 个 的 分 析 方 法 ， 因 为 先 从 数据 集 {4vain， cian} 保 留 一 个 测量 ， 同 时 基于 
保留 的 测量 开发 PCR 模 型 ， 然 后 ， 被 保留 的 测量 用 于 测试 以 推导 出 cu 的 一 个 预测 ， 即 Cu。 
重复 这 一 过 程 ， 直 到 所 有 的 测量 都 被 保留 并 用 于 预测 ， 然 后 根据 式 《9-109)， 对 全 部 main 个 
测量 计算 SEP。 在 测量 的 数目 稀少 ， 即 没有 足够 的 可 行 测量 的 上 时候， 经 常 使 用 交 又 确认 。 在 这 
种 情况 下 ， 没 有 足够 的 数据 形成 训练 集 和 测试 集 。 使 用 这 种 方法 得 到 的 结果 并 不 同 使 用 独立 
检验 方法 得 到 的 结果 一 样 好 。 理 想 的 情况 是 ， 希 望 拥有 一 种 统计 表达 的 测量 集 ， 这 样 就 可 以 
形成 分 离 的 训练 集 和 测试 集 [4-7, 120, 121]。 


9.5 部 分 最 小 二 乘 回归 


部 分 最 小 二 乘 回 归 与 PCR 相 似 ， 是 另 一 种 基于 因子 分 析 的 方法 。 但 是 ，PLSR 比 PCR 具 有 一 
个 主要 的 优势 。 在 PLSR 的 “压缩 ”阶段 ， 目 标 值 〈( 因 变量 块 ) 用 于 自 变 量 块 的 附加 ， 而 在 PCR 
中 ， 只 有 自 变量 块 用 于 基于 PCA 的 压缩 步骤 中 。 在 压缩 步骤 中 ， 同 时 使 用 自 变量 块 4s 洋 ”和 
因 变 量 块 ce R”"*!， 使 用 PLSR 的 预测 性 能 结果 可 以 得 到 一 个 显著 的 效果 ， 典 型 地 较 之 CLS 和 
PCR 可 以 得 到 更 好 的 性 能 。 

PLSR 最 初 由 Wold[122, 123] 提 出 ， 是 作为 经 济 学 以 及 社会 科学 中 的 数据 分 析 问 题 的 实际 
解决 方案 。 这 一 基本 问题 与 PCR 的 情况 是 一 致 的 ， 即 ， 为 了 使 校正 模型 拟 合 经 验 数据 ， 假 定 
一 系列 的 测试 数据 作为 训练 阶段 之 后 的 校正 模型 的 输入 ， 使 用 这 一 方法 来 预测 某 些 量 。PLSR 
经 常 涉及 到 抽象 因子 分 析 (MR) 的 内 容 ， 因 为 系统 中 重要 的 量 并 不 能 总 是 利用 数学 建 模 过 
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程 [124] 来 直接 确定 。 然 而 ， 如 果 解 释 合理 ， 构 成 PLSR 的 因子 分 析 方 法 的 数学 基础 可 以 推导 出 
非常 有 力 的 、 与 物理 设置 中 某 些 关键 特征 相关 的 信息 ， 并 从 物理 设置 中 提取 数据 用 于 PLSR 的 
建 模 过 程 [12]。 此 外 ，PLSR 认 为 是 全 谱 技 术 ， 对 应 于 逆 最 小 二 乘 (ILS) 方法 [12]。 因 此 ， 使 
用 来 自 于 PLS 过 程 的 剩余 误差 的 有 效 出 格 点 技术 是 可 行 的 。 出 格 点 认为 是 不 具有 校正 采样 的 样 
本 。 因 此 ， 并 行 估计 的 输出 必须 仔细 核查 [7, 12]。 

当 提 出 PCR 的 时 候 ， 假 定 限制 于 单 分 量 情形 [7] 的 讨论 ， 这 一 点 与 PLSR 是 相同 的 。 这 里 我 
们 将 提出 PLSR1 校 正 算法 ( 单 分 量 情形 ) 和 两 个 不 同 的 预测 算法 。 在 9.6 节 将 要 提出 一 种 PLSR 
神经 网 络 的 实现 。 正 如 前 面 提 到 的 ,为 PCR 所 提出 的 基础 模型 也 是 PLSR 的 基础 ， 即 式 (9-100) 
和 式 (9-101)。 但 是 ， 我 们 将 看 到 在 PLSR1 校 正 算法 的 陈述 中 ， 其 遵循 Haaland 和 Thomas[12] 
提出 的 方法 ，4 与 c 都 用 于 压缩 阶段 。 存 在 许多 PLSR 算 法 的 不 同方 法 和 PLSR[7-13] 的 基本 规则 
的 各 种 表示 。 下 面 给 出 的 解释 可 能 是 最 直接 的 ， 因 此 更 容易 理解 。 同 样 ， 遵 循 Haaland 和 
Thomas[12] 提 出 的 方法 的 两 种 预测 方法 也 是 如 此 。 

下 面 给 出 的 PLSR1 校 正 算法 中 ，7 个 主要 步骤 中 的 每 一 步 都 是 由 CLS 方 法 推导 出 的 。 对 于 
校正 算法 的 一 般 解 释 ， 数据 {4,c} 用 作 训 练 数据 ， 即 最 终 的 开发 校正 模型 的 {Awio, cin}。 但 是 ， 
在 PLS1 校 正 算法 解释 中 ,“train” 下 标 省 略 了 ， 以 避免 混淆 。 

PLSR1 校 正 算法 

步骤 1， 数据 的 平均 中 心 以 及 方差 规整 。 第 一 步 是 数据 的 预 处 理 ， 即 数据 的 平均 中 心 以 及 
方差 规整 [7，10]。 我 们 将 不 给 出 数据 的 这 种 预 处 理 的 基本 原因 详尽 的 解释 。 然 而 ， 会 解释 一 
些 典型 的 需要 数据 预 处 理 情 况 。 例 如 ， 如 果 收 集 的 数据 (测量 ) ， 即 4 的 行 向 量 包 含 与 数据 相 
关 的 偏 置 ， 那 么 数据 的 平均 中 心 是 可 行 的 。 这 一 过 程 也 会 对 于 因 变 量 即 ce 执行。 这 里 基本 完成 
消除 对 于 数据 的 非 零 截 距 需求 ， 通 常 导致 校正 模型 复杂 度 的 下 降 。 也 就 是 用 于 建 模 数据 [12] 所 
需 PLSR 因 子 数目 的 减少 。 如 果 收 集 的 数据 使 用 不 同 的 单元 进行 测量 ， 那 么 方差 规整 就 是 可 行 
的 。 平 均 中 心包 括 计 算 4 每 一 列 的 平均 值 和 从 相应 列 的 每 一 个 元 素 中 减 去 特殊 列 的 均值 。 如 果 
4 是 平均 中 心 的 ，e 也 应 该 是 平均 中 心 的 。 方 差 规整 包括 计算 4 中 每 一 列 的 标准 偏差 ， 然 后 通 
过 相关 的 标准 偏差 值 除 以 各 自 列 中 的 每 一 个 元 素 。 对 于 因 变 量 c 也 执行 相同 的 处 理 。 然 而 ， 这 
通常 只 对 于 多 分 量 的 情况 是 必要 的 。 关 于 平均 中 心 和 方差 规整 是 统计 学 家 中 一 直 持 续 的 讨论 。 
许多 人 坚持 数据 应 该 经 常 进行 预 处 理 ， 而 另外 一 些 人 坚持 数据 不 应 该 进行 平均 中 心 和 方差 规 
整 [121]。 我 们 认为 ， 基 于 上 面 的 原因 ， 数 据 预 处 理 是 必要 和 的。 然而， 如 果 没 有 足够 的 强制 性 
原因 ， 进 行 数据 的 平均 中 心 和 方差 规整 的 处 理 不 应 该 任意 执行 。 

首先 ， 索 引 h (PLS 因 子 的 数目 ) 初始 化 为 1。 

步骤 2: MRR EW, eR”**'。 这 一 步 实 际 上 是 一 个 CLS 校 正 ， 使 用 的 模型 有 如 下 
形式 


模型 : A=cw +E, (9-112) 
其 中 最 小 二 乘 解 如 下 
最 小 二 乘 解 : w,=A’cle'ec (9-113) 


然后 正规 化 w,， 即 


a 


Wh 
Ww, <—— 
iw, Il, 


在 式 (9-113) H, Pe Sade, AP RW, 是 与 矩阵 4 中 行 元 素 的 加 权 平 均 成 比例 的 权 值 
向 量 ， 其 中 平均 权 值 与 ce 中 的 元 素 是 成 比例 的 。 每 一 个 权 值 向 量 W 正规 化 的 同时 ， 构 建成 相互 


上 
we 
wu 
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EZR. AE, W, 向 量 是 正 交 的 。 这 一 步 与 使 用 PCR 方 法 [4, 6-8] 有 着 很 大 的 不 同 ， 因 为 因 变 
量 c 中 用 到 的 信息 附加 到 4 ， 以 形成 PLSR 中 的 权 值 向 量 。 在 PCR 中 ， 只 有 第 阵 4 中 的 信息 在 这 
一 步 使 用 。 式 (9-112) 中 的 矩阵 B4e R"*" 包含 与 4 相 联 系 的 剩余 误差 。 

步骤 3: 生成 计 分 ( 隐 式 变量 ) 向 量 he %”"*'。 在 这 一 步 ， 4 现在 相对 于 隐 式 变量 或 者 计 分 
可 以 写成 


模型 : A=t,W, +E, (9-114) 
其 中 最 小 二 乘 解 可 由 下 式 给 出 
最 小 二 乘 解 : i, = Aw, /WW = Aw, (9-115) 


这 一 步 CLS 也 是 如 此 ， 其 中 如 式 (9-115) 中 所 述 ， 通 过 基于 W 回归 4 得 到 力 的 最 小 二 乘 估计 如 。 
的 各 元 素 说 明了 在 数据 矩阵 4 中 的 每 一 个 行 中 包含 多 少 个 w, 。 对 于 新 的 PLS 坐 标 系统 ， 向 量 
上 表示 4 的 行 数 据 中 第 一 权 值 装载 向 量 的 强度 (或 者 数量 ) 。 因 为 w 是 一 阶 尝试 ， 表 示 从 4 的 行 
向 量 中 的 干扰 (噪声 ) 数据 得 到 的 未 受 干扰 的 数据 ，i 表 示 一 阶 尝试 确定 在 4 的 每 一 个 关联 行 
向 量 中 纯 分 量 值 ( 即 ， 包 含 在 c 中 信息 ) 的 数目 。 因 此 ， 在 PLSR 方 法 中 ， 每 一 个 向 量 与 4 和 
c 相 关 ， 而 不 是 只 是 与 4 相关 ， 如 PCR 中 的 情况 。 

步骤 4: 建立 计 分 向 量 i, 与 c 的 元 素 的 关系 。 在 这 一 步 中 ， 表 示 新 的 PLSR 坐 标 系 中 的 强度 
的 计 分 向 量 ， (或 者 与 矩阵 4 的 每 一 行 中 包含 的 纯 元 素 值 关联 的 主 特 征 联系 的 隐 式 向 量 ) 关联 
着 问 量 ce 的 元 素 ， 其 中 通过 使 用 线性 最 小 二 乘 回归 。 在 PLSR 中 ， 因 为 与 逆 最 小 二 乘 方 法 [12,， 
125] 以 及 PCR 相 反 ， 在 估计 每 一 个 权 值 向 量 之 后 ， 得 到 计 分 6 和 c 向 量 (或 者 c 剩 余 误 差 ) 的 元 
素 之 间 的 独立 关联 。 记 和 c 之 间 的 关系 建 模 成 . 
模型 c= 0,b, +e, (9-116) 


最 小 二 乘 解 有 如 下 形式 
最 小 二 乘 解 ô, = fi, clt, 6, (9-117) 


其 中 对 于 每 一 个 h 增 量 式 (9-117), 提出 一 个 用 于 关联 和 与 ce 中 元 素 的 标量 回归 系数 (内 在 关系 ) 
ve 家 的 估计 。 式 (9-116) 中 的 向 量 e,e WR"*' 包 含 与 相关 的 PLSR 剩 余 误 差 。 式 (9-117) 中 
的 关系 与 ILS 解 相似 ， 因 为 平方 的 c 误 差 之 和 最 小 化 了 。 然 而 ， 在 这 一 步 ， 与 TLS 相 似 的 解 是 一 
个 元 素 接 一 个 元 素 建立 的 。 

MS. 久 eR"*! 的 泛 化 ，4 的 PLS 装 载 向 量 。 为 了 去 除 共 线 性 ， 正 交 $ 向 量 ( 即 ， 线 性 依 
赖 ) 是 可 取 的 。 通 过 基于 隐 式 变量 6 为 矩阵 4 组 成 一 个 新 模型 来 得 到 正 交 向 量 和 。 新 模型 有 如 
下 形式 


模型 A =i,b), +E, (9-118) 
其 中 最 小 二 乘 解 有 如 下 形式 
最 小 二 乘 解 ; b, =A" ĜE, (9-119) 


kb, (对 于 户 = 1, 2, …) PLSP IE. Akp PAR T REA BE 
相互 正 交 的 。 最 小 二 乘 回归 对 于 和 矩阵 4 中 的 每 一 行 的 所 有 样本 同时 进行 ， 如 式 (9-119), 与 
PCR 中 的 第 一 PCA 装 载 向 量 不 同 ， 由 式 (9-119) 所 确定 的 第 一 PLSR 装 载 向 量 负 并 没有 归 因 于 
和 矩阵 4 行 中 的 最 大 方差 。 但 是 ， 当 同时 与 估计 ce 的 六 相关 联 时 ， 这 并 不 表示 一 种 尝试 说 明 在 矩 
阵 4 中 有 同样 多 的 变化 。 与 PCA 也 不 一 样 ， 包 个 向 量 并 不 是 相互 正 交 的 。 此 外 ， 既 然 六 是 c 向 量 
的 一 阶 近似 ， 与 向 量 记 的 最 大 正 元 素 相关 的 ， 和 矩阵 4 中 的 列 元 素 倾 向 于 指示 矩阵 4 中 的 这 些 列 
元 素 ， 它 们 表明 了 由 于 特殊 的 装载 向 量 ， 和 矩阵 对 于 c 中 元 素 的 最 大 依赖 性 。 但 是 ， 直 接 与 向 量 
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c 相 关 的 向 量 w, 将 表明 这 一 倾向 比 训 要 好 一 些 ， 因 此 ， 对 于 从 PLSR1 分 析 中 提取 的 信息 ，w 将 
比 b ,更 加 有 用 。 

步骤 6: 矩阵 4 与 c 的 剩余 误差 计算 。 计 分 向 量 名 和 装载 向 量 访 的 积 是 PLSR 对 于 矩阵 4 的 近 
WL. ERARA REE, 通过 从 4 的 行 向 量 中 的 测量 中 减 去 矩阵 4 的 行 向 量 PLSR 的 近似 来 计算 ， 
如 下 


A 剩余 误差: BE,=A-i,b (9-120) 
Cc 剩余 误差 : e.=c—%,t, (9-121) 


类 似 地 ， 已 经 通过 PLSR 建 模 的 向 量 ce 中 的 信息 成 分 可 以 通过 消除 得 到 ec 中 的 剩余 误差 ， 即 e.， 
如 式 (9-121) 中 所 示 。 在 式 (9-121) 中 仿 世 的 积 表示 基于 矩阵 4 信息 ce， 其 PLSR 估 计 为 6。 

PERT: MEA, HRPE, 代替 4 并 以 e. 代替 c， 然 后 继续 直到 期 望 的 装载 向 量 的 数 
A (或 者 PLSR 因 子 hr? 的 最 佳 数目 )。 


PLSR1 校 正 算法 小 结 


PRI 数据 预 处 理 : 平均 中 心 AeR"*" 以 及 ce RR"! 
(其 中 h 是 PLS 因 子 的 数目 )。 

步骤 2 组 成 权 值 装载 向 量 wie R"*! 
BA, A=cw, +E, (E,eR""@GAn AR RE) 











tn 


7 eee <3 = z Wren 





最 小 二 乘 解 ， Ww = 了 
人 By W a 
正规 化 Wi， p h Il, Il, 
步骤 3 计 分 ( 隐 式 变量 ) KPiR HER 
模型 ; A=t,wi), + E, 





步骤 4 将 计 分 向 量 i, 与 c 的 元 素 相 联系 。 
模型 ，c = Df +e, (esER”"”*! 包 含 剩 余 量 c) 





其 中 eR 是 将 计 分 向 量 与 c 的 元 素 相 联系 的 标量 回归 系数 (内 在 关系 )。 
步骤 5 A 的 装载 向 量 beR"*' 的 生成 
模型 : A=t,b) +E, 
~ Alt 
Rp cae. =F 
SME A 以 及 c 中 的 剩余 误差 的 计算 
A 的 剩余 误差 : E。=A 一 fp? 
c 的 剩余 误差 ， e.=c— Dt 
步骤 7 增 量 h， 在 步骤 2 中 以 Es 代 蔡 入 ,以 e. 代 蔡 c， 继 续 直 到 期 望 的 装载 向 量 的 数目 ， 或 者 PLS 因 子 
如 的 最 佳 数目 ， RPR =m (其 中 m <n Reh’ =n (其 中 m 之 n)。 


) 











A 


oo 
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PLSR1 预 测算 法 . 

预测 算法 1。 存 在 两 种 不 同方 法 用 于 预测 。 即 考虑 一 个 未 知 的 测量 ， 利 用 从 PLSR1 校 正 阶 
段 抽取 的 信息 来 预测 期 望 的 因 变量 的 分 量 。 这 里 提出 的 第 一 个 预测 算法 符合 Haaland 和 
Thomas[12] 对 方法 2 的 解释 。 随 后 的 过 程 很 容易 理解 ， 分 解 成 两 部 分 : 校正 模型 开发 以 及 使 用 
校正 模型 的 预测 。 这 种 方法 的 不 足 之 一 是 它 并 没有 按照 矩阵 4 的 剩余 误差 的 确定 。 因 此 ， 当 获 
得 预测 时 ， 没 有 关于 适合 数据 校正 模型 的 质量 的 可 行 诊断 信息 。 

根据 上 面 提出 的 PLSR1 校 正 算法 ， 校 正 模型 psre R"“*! 可 以 由 权 值 装载 向 量 声 (h = 1, 2, …， 
9)、4 的 装载 向 量 所 (h = 1, 2, …, q)， 以 及 内 在 关系 久 (h = 1, 2, …, gq) 组 成 。 如 果 生 成 所 有 的 
PLSR 因 子 ， 那 么 q = m， 其 中 m < n， 以 及 q = n， 其 中 m 之 n。 理 想 地 ， 只 使 用 最 优 数目 的 
PLSR 因 子 ， 即 q = 加。 最 优 数目 的 PLSR 因 子 可 以 产生 一 个 校正 模型 记 wsg， 它 可 以 基于 独立 测 
试 数据 推导 出 最 小 预测 性 能 误差 ， 因 此 不 允许 模型 过 适应 数据 。 确 定 h" 的 过 程 同 前 面 提 到 的 
PCR 方 法 是 一 致 的 。 为 了 产生 校正 模型 ， 我 们 首先 构造 矩阵 


= [Wi, +, We] (9-122) 

以 及 
B = (,, bn b (9-123) 

以 及 
O = [ô bh, Ô] (9-124) 


HrpWeR™", BER", RIER, Mak (9-122)、 式 (9-123)、 式 (9-124) 以 及 q = W, 
最 终 的 最 优 校正 模型 (或 者 最 终 校正 系数 ) 包 wsn 可 以 得 到 如 下 形式 
bvisr = W (ÊW) tô (9-125) 
PLSR1 预 测 方法 1 小 结 


22 OR EDEECOR LEMS! ALAS SEEDED LEASE LEDE ISIS EAE LES SB OOD EB ESE AAT ELE EBLE INESSE VEIN BIE: 28 Bos MAL, BREESE A hy ah BOR Ren we SME 


$M KPLSRIRER A, ARTE (HF RERS DAE MPLS Thh), 
W = [W,, 及， WH We RY” 

B’ = [b,, b, …, b JA PB ER!" 

Ô= [6,, 6, =, OJA H ERO”! 
步骤 2 计算 最 终 回归 系数 ， 或 者 最 优 校 正 模型 Bers 

Brose = WBW ò 

LES.: PBW = 到 ， 其 中 心 <<m m] 

步骤 3 考虑 一 组 测量 4 (不 用 于 开发 校正 模型 ptsg) ， 估 计 输 出 (或 者 因 变 量 ) 
Êe = Apus 
或 者 ， 假 如 训练 数据 是 平均 中 心 的 〈 其 中 依赖 参考 数据 的 均值 由 En 给 出 ) 


Cie Ĉien = Aus bnse + Co 


PA A HCO ae LE ON DE HRSA E T AES Ri MSIE ER GATED BIBER MESHES EDD OS 8 ESB SM OIE SMS Bt SPIDERS 


式 (9-125) 提出 的 校正 模型 (向量 ) UR BH {A nin oan) ERIE, 现在 可 以 用 于 预测 。 
即 ， 假 定 另 外 一 组 没有 用 于 校正 模型 开发 的 测量 4。,， 并 通过 将 矩阵 4 投影 到 局 us， 对 于 测 
试 数据 可 以 得 到 ce 的 估计 如 下 

Grex = AvoyDpise (9-126) 


如 果 数 据 是 平均 中 心 的 ， 其 中 依赖 参考 数据 的 均值 如 ci,， 那 么 
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Crest = Acad; rise + C irain (9-127) 
显然 ， 将 式 (9-125) ERER EMA FIREREN, CARI FCLSAUHIAR, HORE AK, 
这 是 使 用 这 一 方法 的 一 个 缺点 。 但 是 ， 对 于 PLSR 的 情况 ， 式 (9-125) 的 年 阵 必 须 计算 其 逆 ， 
即 2W' 只 是 g x gqg， 或 者 rx h"， 在 维 数 上 ， 其 中 特别 是 hr<<n, m， 这 一 点 与 PCR 相 似 。 

预测 算法 2。 预 测 的 第 二 种 方法 并 不 需要 计算 矩阵 的 逆 ， 是 9.6 节 提出 的 PLSNET-P 神 经 网 
络 结构 的 基础 。 如 前 所 述 ， 前 面 方法 的 不 足 是 它 不 允许 矩阵 4 剩余 误差 的 确定 。 然 而 ， 随 后 的 
方法 允许 计算 剩余 误差 并 有 益 于 在 神经 结构 中 实现 。 也 就 是 说 ， 和 矩阵 的 逆 不 需要 得 到 预测 。 
算法 的 提出 符合 Haaland 和 Thomas[12] 对 方法 1 的 解释 。 这 一 算法 是 递归 的 ， 分 5 步 。 

考虑 未 知 的 测量 或 者 观察 aie KR, i= 1, 2,…, m) (其 中 是 测试 输入 的 数目 )， 另 一 种 
(递归 ) 预测 算法 可 以 总 结 如 下 。( 注 意 ; 为 了 方便 ，a; 看 作 是 一 个 列 向 量 。) 


PLSR1 预 测 方法 2 小 结 


CE ee HIRO” HRA ARO 


步骤 1 平均 中 心 以 及 方差 规整 。 fo RHE PEA AE BRIE BP EF HY oy 以 及 方差 规整 a (注意 i IFRA 
了 方便 被 忽略 了 ， 其 中 i 表示 特殊 测量 ) 使 用 校正 数据 也 是 平均 中 心 和 方差 规整 的 ， 令 h = 1。 
Scr = 0 以 及 ewo=a。 

步骤 2 AER ANE 


i,=Wa (9-128) 
利用 校正 阶段 的 权 值 装载 向 量 w;。 这 与 校正 阶段 | 见 PLSR1 校 正 算法 的 步骤 3 中 的 式 (9-115) ] 
是 相同 的 步骤 。 
步骤 3 因 变 量 c 的 更 新 估计 的 计算 
Cy = Cy + Dé, (9-129) 


其 中 PLSR1 校 正 阶段 中 的 仿 是 标量 回归 系数 (对 于 内 在 关系 )， 假 如 数据 是 平均 中 心 的 ，co 是 
在 PLSR1 校 正 训练 阶段 中 使 用 的 目标 值 的 平均 。 注 意 ， 式 (9-129) 相似 于 式 (9-116) 的 模型 。 
步骤 4 a 的 剩余 误差 计算 
Cah = Can bÊ, (9-130) 
A PÉ ZPLSRIREMRHERAE, ER, È (9-130) 同 计算 矩阵 4 的 剩余 误差 的 校正 
算法 具有 相同 的 表达 式 [ 见 PLSR1 校 正 算法 中 的 式 (9-120) ], 
步骤 5 回 到 步骤 2。 增 量 h ( 即 ，h 一 hh + 1)， 为 a 代 换 eo。， 直 到 h = ATH PW’ SPLSRA FHM 
【或 最 优 ) 数 ， 或 者 装载 向 量 或 评分 ]。 当 h = k, AA BMC = cw。 


“Se RS AA PARE ME SEE AIRED LOI LEADED CLES SERRER A DEDERE SE EERE AEG EE SEREEN EDR IE Si ERROR: tr ee DIR I AP EN 8 


正如 我 们 所 看 到 的 ， 这 个 预测 算法 实际 上 是 PLSR1 校 正 算法 的 子 类 。 在 下 -和 ;PLSNETHE 
正和 预测 神经 结构 介绍 之 后 ， 这 一 点 将 会 很 明显 。 


9.6 部 分 最 小 二 乘 回归 的 神经 网 络 方法 


在 9.5 节 中 介绍 的 PLSR1 校 正 算法 以 及 PLSR1 预 测 方法 2 是 递归 算法 ， 它 们 可 以 在 神经 网 络 
结构 中 以 一 种 相对 简单 的 方式 实现 。 用 于 实现 PLSR 的 神经 网 络 结构 称 作 部 分 最 小 二 乘 网 络 
(PLSNET), 它 最 初 由 Ham 以 及 Kostanic[126，127] 提 出 。PLSNET 实 际 上 是 由 两 个 分 离 但 耦合 
的 神经 网 络 组 成 ， 基 于 前 面 提 出 的 PLSR1 校 正 算法 的 PLSNET-C 〈 对 于 PLSR 校 正 ) ， 以 及 基于 
前 面 提出 的 预测 方法 2 的 PLSNET-P (对 于 PLSR1 预 测 )。PLSNET-C 是 一 种 自 适 应 模块 的 线性 
神经 网 络 ， 根 据 3 个 标准 的 Hebb 学 习 规 则 来 训练 ， 允 许 PLSR 权 值 装 载 向 量 、 回 归 系 数 以 及 装 
载 向 量 的 求 取 。PLSNET-C 是 一 种 在 训练 阶段 中 使 用 期 望 响应 (输出 或 者 因 变 量 ) 信息 的 监督 
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训练 神经 网 络 。 由 PLSNET-C 求 取 的 校正 信息 用 于 预测 。 也 就 是 ，PLSNET-P 使 用 由 PLSNET- 
C 求 取 的 3 个 系列 的 突 触 权 值 来 预测 由 测试 输入 给 出 的 输出 (或 者 因 变 量 )。 将 首先 介绍 
PLSNET-C， 接 下 来 介绍 PLSNET-P。 然 后 再 进行 两 个 网 络 之 间 耦 合 的 解释 。 

PLSNET- 校 正 (PLSNET-C) 

PLSR 校 正 阶段 ( 即 PLSNET-C) 中 的 PLSNET 神 经 结构 如 图 9-16 所 示 。 图 9-16 中 的 每 一 个 
神经 元 都 是 一 个 线性 处 理 器 。 也 就 是 ， 每 个 神经 元 的 激活 函数 是 线性 的 。 图 中 显示 的 各 种 阶 

段 与 保留 的 PLSR 因 子 的 数目 相关 。 也 就 是 ， 在 PLSNET-C 阶 段 中 ，PLSR 因 子 的 最 优 数目 是 根 

据 前 面 解释 的 独立 校 验方 法 来 确定 的 。PLSNET-C 需 要 的 每 一 个 附加 因子 只 是 简单 的 通过 给 网 
络 加 入 一 个 阶段 来 实现 。 例 如 ， 在 PLSNET-C 对 于 具体 数目 的 因子 的 初始 训练 之 后 ， 和 希望 增加 
另外 一 个 因子 ， 这 一 点 可 以 通过 简单 的 给 网 络 增加 另 一 阶段 来 实现 。 结 果 网 络 并 非 完 全 地 重 
新 训练 ， 只 利用 以 前 的 训练 阶段 中 已 经 为 上 面 阶段 设置 的 突 触 权 值 来 训练 增加 的 附加 级 。 对 
于 每 一 PLSR 因 子 ， 这 一 阶段 是 PLSNET-C 结 构 的 自 壬 应 模块 特性 。 在 图 9-16 中 给 出 的 结构 与 
图 9-4 (参照 9.3.5 节 ) 中 的 PCA 的 APEX 网 络 相 似 ， 但 有 着 明显 的 不 同 ， 即 在 训练 过 程 中 
PLSNET-C 包 含 目 标 ， 或 者 因 变 量 ， 信 息 ， 而 APEX 则 不 然 。 因 此 ，PLSNET-C 是 在 一 个 监督 
模型 中 被 训练 的 ， 而 APEX 是 一 个 无 监督 训练 神经 网 络 。 


ay 


| 


阶段 1 第 …PLS 
因子 





阶段 2 第 二 PLS 
因子 





阶段 3 第 三 PLS 

| 因子 

图 9-16 PLSNET-C 结 构 ， 对 于 自 适应 抽取 PLSR 权 值 装 载 向 量 廊 ;、 回 归 系 数 信 以 及 装 
HEED = 1, 2, …, h) 其 中 如是 PLSR 因 子 的 最 优 数 目 


如 前 所 述 ，PLSNET-C 根 据 3 个 标准 的 Hebb 学 习 规 则 训练 ， 求 取 PLSR 权 值 装 载 向 量 %,、 
回归 系数 入 CLE BS, (h = 1, 2, …, 各)， 其 中 心 是 PLSR 因 子 的 最 优 数 目 。 三 个 Hebb 学 
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习 规 则 中 的 每 一 个 都 可 以 由 图 9-16 中 描述 的 PLSNET-C 结 构 来 推导 得 到 。 也 就 是 ， 图 9-17 描 述 
了 在 图 9-16 中 网 络 结构 的 每 一 部 分 ， 分 别 与 求解 PLSR 权 值 装载 向 量 、 回 归 系 数 以 及 装载 向 量 
相关 。 


(注意 :ww 正规 化 为 单位 长 度 ) 
ai 


(=) bri 


©) (2 





b) 





图 9-17 a) 在 图 9-16 中 为 了 求 取 PLS 权 值 装载 向 量 认 ; 的 PLSNET-C 结 构 的 子 网 络 ，b) 在 图 9-16 
中 为 了 求 取 PLS 装 载 向 量 B 的 PLSNET-C 结 构 的 子 网 络 ，c) 在 图 9-16 中 为 了 求 取 PLS 
标量 回归 系数 总 的 PLSNET-C 结 构 的 子 网 络 


我 们 将 首先 集中 精力 推导 求 取 PLSR 权 值 转载 向 量 的 学 习 规则 ， 其 他 两 个 回归 系数 以 及 装 
载 向 量 的 学 习 规则 能 以 相似 的 方式 推导 。 图 9-17a 描 述 了 对 于 负责 求 取 PLSR 权 值 装载 向 量 的 
PLSNET-C 网 络 (对 于 单 阶段 ) 的 一 部 分 ， 对 于 单一 测量 或 者 观察 底层 基础 模型 如 下 所 示 

a, =C,W, + er, (9-131) 
其 中 a,e R**! (为 了 方便 ea; 看 作 一 个 列 向 量 )， 且 误差 向 量 e* eR (i = 1, 2,…, m)。 这 与 在 式 
(9-112) 所 提出 的 模型 结构 是 相同 的 。 
构造 PLSNET-C 以 达到 一 次 只 处 理 一 个 测量 。 为 了 推导 出 第 一 个 学 习 规 则 ， 误 差 代 价 函 数 
( 李 雅 普 诺 夫 函 数 ) 可 以 写作 
L,(,) =5 lle IB (9-132) 
其 中 ex 是 同 式 (9-131) 的 测量 相关 的 误差 。 式 (9-132) 关于 权 值 向 量 wi 的 梯度 可 以 以 如 下 
计算 
VL, w) = ee) = ca, +c, (9-133) 


h 





330 B RD RAHA A 





因此 ， 使 用 Amari[64] 的 结论 ，PLSR 权 值 装载 向 量 的 离散 时 间 学 习 规 则 有 如 下 形式 


V, (k+) mk) = A, IEW) - AL [ca ~ 2, (Kk))] (9-134) 
ow, 
或 者 
W, (k + 1) = W, (k) + H, c; [a;— c; W, (k)] (9-135) 


EPERRAK Hm > 0 是 学 习 参 数 。 在 图 9-17a 中 描述 的 PLS 权 值 装载 向 量 的 正规 化 是 不 
必要 的 。 但 是 ， 它 已 经 包括 其 中 了 ， 那 么 PLSNET-C 可 以 直接 与 经 典 的 PLSR1 校 正 算法 相 联 系 。 

另外 两 种 求 取 PLSR 装 载 向 量 (b, 和 标量 回归 系数 (0) 的 学 习 规则 可 用 相似 的 方式 来 
推导 ， 至 于 权 值 装载 向 量 分 别 通过 参考 图 9-17b 和 图 9-17c。 对 于 3 个 学 习 规则 中 每 一 个 ， 其 结 
果 总 结 在 表 9-1 中 。 

在 表 9-1 中 计算 3 个 系列 的 权 值 ， 即 {高 , 访 , 0} (其 中 h = 1, 2, …, 如) 的 3 个 学 习 规则 中 ， 
可 以 发 现 标 准 的 Hebb 共 存 项 (这 是 在 3 个 表达 式 中 每 一 个 的 右手 边 的 第 一 项 )。 每 个 表达 式 右 
手边 的 第 二 项 表示 一 个 活性 衰退 ， 它 实质 上 阻止 了 各 自 的 权 值 {W , b, d, } 在 训练 过 程 中 成 为 
无 界 。 对 于 学 习 第 一 主 特征 向 量 (参照 9.3.1 节 )， 这 三 个 学 习 规则 与 式 (9-25) 所 提出 的 Oja 
的 正规 化 Hebb 学 习 规 则 有 着 相同 的 形式 。 它 可 以 描述 [126] 成 如 果 学 习 率 4, 满足 不 等 式 





ocu < [Ee] (9-136) 
其 中 c;， 对 于 i = 1, 2, …, m， 是 训练 目标 值 ， 同 样 也 有 | 
Hy, > Hs F My (9-137) 


那么 PLSNET-C 保 证 收敛 。 其 他 PLSR 神 经 网 络 实现 方式 ， 例 如 Holicomb 和 Meorari[128] 提 出 了 
一 个 前 馈线 性 神经 网 络 结构 。 同 样 ， 非 线性 PLSR 神 经 网 络 结构 已 经 由 Qin 和 MecAvoy[129] 以 
及 Malthouse[130] 提 出 。 但 是 ， 这 里 提出 的 PLSR 神 经 网 络 与 这 结构 主要 在 PLSNET-C 自 适应 模 
块 特性 方面 有 着 显著 的 不 同 。 


表 9-1 PLSNET-C 学 习 规 则 小 结 


BERMAN 


w, (k+1)=6,(k)+ ucla; ~ ¢,(k)] 















PLS 信 息 误差 函数 















WER"! ( 权 值 装载 向 量 ) 


1 
woe . = w 12 
er = 全 一 CH L(w)= 5 leg 由 


















` > ~ 、 1 2 a a > aoa 
be (装载 向 量 ) e; =A; tw Lb) = es It, b,(k +1) =b,(k) + Hf, a; — tpb, (Kk)] 















v Pi 1 v a a a a a 
各 e 届 (标量 回归 系数 或 内 在 关系 )〗 eC HG ~My (V2)= 了 le Ih D, lk +D = 6, (E+ By hile; — iO, A) 








L 其 中 学 悦 规则 参数 必须 满足 凡 , > > Ho 
IlL h = 1, 2, >, (PLS 因 子 的 最 优化 数 ) 
UI. cj 是 训练 自 标 值 

IV. a 是 训练 输入 模式 

V. 8, = Wha, (测量 强度 ) 
VI. i=1,2, m (测量 数 ) 





PLSNET 预 测 (PLSNET-P) 
图 9-18 描 述 了 PLSNET-P 结 构 。 这 一 结构 基于 前 面 的 PLSR1 预 测算 法 (方法 2)。 这 一 结构 
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实际 上 是 PLSNET-C 结 构 的 一 个 子 网 络 。 操 作 中 的 主要 不 同 是 PLSNET-P 并 不 使 用 目标 数据 ， 
但 是 为 自 变量 C 来 预测 (或 者 估计 ) 值 ， 假 定 网 络 有 一 个 测试 测量 输入 a = 1,2, …)。 





/从 所 有 其 他 阶段 
阶段 2 第 二 "2 
PLS A f- 


阶段 3 第 三 
PLSIK f- 
图 9-18 用 于 因 变 量 (6) 的 预测 (或 者 估计 ) 的 PLSNET=P 结 构 ， 假 定 输入 是 一 个 独 
立 测 试 测量 或 者 观察 


因此 ，PLSNET-P 神 经 网 络 是 不 用 训练 的 ， 但 是 它 的 权 值 是 根据 从 训练 PLSNET-C 神 经 
结构 中 提取 的 信息 来 设置 的 ， 也 就 是 { 遍 ,Bi , 0, } 其 中 h = 1, 2, …, hh。 这 一 点 可 以 在 图 9-19 
中 发 现 ， 通 过 3 组 突 触 权 值 {WW , bi, 名) 描述 了 看 合 。PLSNET-C 与 PLSNET-P 之 间 的 相似 性 主 
要 包括 与 输入 测量 相关 的 误差 剩余 的 计算 ， 同 时 两 者 必须 计算 PLSR 分 数 (或 者 隐 式 变量 ) 。 
如 图 9-18 所 示 ， 测 试 输入 测量 误差 a,。, 提交 给 阶段 1 (注意 “test” 下 标 已 从 图 9-18 中 的 测试 
输入 测量 样本 中 除去 以 避免 混淆 ) 。 图 9-19 所 描述 的 PLSNET-P 输 出 是 考虑 一 个 特殊 的 测试 输 
入 时 ， 一 个 与 因 变 量 (或 响应 变量 ) 6 相 联 系 的 预测 (或 者 估计 )。 

例 9.4 “对比 PLSNET 以 及 CLS 方 法 的 预测 性 能 。 这 个 例子 中 的 数据 由 一 组 与 中 心 且 标 值 相 
关 的 200 个 模拟 近 红 外 (NIR) 谱 组 成 ， 其 中 对 于 谱 中 感 兴趣 的 分 量 ， 中 心目 标 值 分 布 于 2.7 ~ 
500 mg/dL (毫克 每 分 升 ) 之 间 。 这 200 个 谱 是 从 基 兴 趣 分 量 [图 9-20a 所 描述 的 作为 最 低 幅度 谱 ] 
以 及 一 个 基 模 糊 分 量 [ 图 9-20a 所 描述 的 较 高 幅度 谱 ] 产 生 的 。 两 种 分 量 都 是 作为 各 自 附 带 的 两 个 
吸收 频带 的 高 斯 函数 而 产生 的 ， 如 图 9-20a 所 示 。 模 糊 分 量 认 为 是 模拟 NIR 水 吸收 ， 后 者 控制 着 
NIR 兴 趣 分 量 [131] 的 吸收 。 因 此 ，200 个 模拟 NIR 谱 是 通过 感 兴趣 的 模糊 分 量 3 次 较 大 量 增加 模 
糊 分 量 来 得 到 的 ， 同 时 带 有 o = 9 的 相对 方差 的 0 均值 高 斯 噪声 在 附加 伴 有 随机 振幅 模糊 的 分 量 
模拟 分 光 光 度 计 ， 即 基线 方差 [7] 的 非 理 想 特性 之 前 被 附加 到 感 兴趣 的 分 量 当中 。 图 9-20b 描 述 
了 200 个 模拟 NIR 谱 中 的 5 个 。 因 为 水 吸收 的 支配 效果 ， 所 有 的 谱 看 起 来 似乎 是 一 样 的 。 
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测量 {41.0,...,4,} 目标 值 fcu cz ... ,cm} MRR {aenn i= 1,2,...} 


阶段 1 (第 一 
PLS 因 子 ) 


e 
剩余 量 


阶段 2 (第 二 ĉ 
PLS 因 子 ) 





阶段 到 (h° BERR” (h° 

PLS 因 子 ) we, be, oe PLS 因 子 ) 

PLSNET-C PLSNET-P 
a) b) 


图 9-19 PLSNET-C 以 及 PLSNET-P 通 过 突 触 权 值 { 认 , Bb , D } 其 中 h = 1, 2，…, PRA, 
在 训练 期 间 由 PLSNET-C 求 取 
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图 9-20 a) 用 于 产生 200 个 模拟 NIR 谱 的 基本 谱 分 量 ，b) 5 个 代表 模拟 NIR 谱 ，c) CLS 校 正 模型 ，d) 
CLS 浓 度 预测 ，e) 由 PLSNET-C 求 取 的 前 3 个 PLS 权 值 装载 向 量 ，f) PLSNET-P 中 心 预测 
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在 理想 条 件 下 ， 根 据 知 名 的 Lambert-Beer 定 律 [119] 在 一 个 含水 的 解 中 吸收 量 与 感 兴 趣 的 
分 析 物 (分量 ) 浓度 之 间 存 在 一 个 线性 关系 。 但 是 ， 在 许多 情况 下 存在 着 一 个 近 线 性 (稍微 
的 非 线 性 ) 关系 。 因 此 ， 这 广泛 分 布 的 200 个 参考 浓度 值 由 下 式 产生 


c =10° ao- Ža) (9-138) 
其 中 i = 1 2, …, m = 200， 模 拟 的 纯 分 量 NIR 吸 收 谱 包含 在 4? eR "h (m7 EV en EOE 
或 者 频率 )。 

因此 ，200 个 模拟 合成 谱 包 含 200 个 感 兴趣 的 谱 ， 它 们 是 确定 的 并 与 其 相关 的 参考 值 ( 即 ， 
参考 浓度) [132] 相 联系 ， 其 中 存在 介 于 纯 分 量 吸 收 谱 和 相关 的 参考 浓度 之 间 的 非 线性 关系 ， 
参考 中 心 高 度 支配 模糊 分 量 ， 即 水 吸收 、 随 机 噪声 以 及 基线 变化 。200 个 复合 谱 以 及 以 升序 排 
列 相关 的 参考 浓度 值 划分 成 两 个 相等 的 数据 集 ，{4vain， Coas} 以 及 {hien, cien}， 每 一 组 包含 100 
个 谱 以 及 中 心 值 。 训 练 数据 集 看 作 奇 数 样 本 ， 测 试 集 看 作 偶数 样本 。 一 个 CLS 模 型 (bjcs) 
BIB cs = (A anA rian) nanceuin 中 发 展 来 的 。 图 9-20c 描 述 了 CLS 校 正 模型 向 量 分 量 作为 样本 
分 量 (或 模拟 频率 ) 的 函数 。 如 同 在 图 9-20c 中 看 到 的 ， 校 正 模 型 是 非常 不 稳定 的 。 因 此 ， 可 
以 预料 基于 这 一 模型 的 预测 效果 相对 较 差 。 将 测试 数据 吸收 矩阵 4 .投影 到 CLS 校 正 模型 weis， 
相关 的 测试 浓度 (Cron) 可 以 得 到 预测 ， 即 Gwers = 4esyr cts。 利 用 式 (9-109) 的 表达 式 ，SEP 
计算 得 到 67.08mg/dL，CLS 测 试 预测 如 图 9-20d 所 示 。 

PLSNET-C 使 用 {4, ww cuan} 来 训练 ， 有 3 个 阶段 (对 应 于 3 个 PLSR 因 子 )， 从 式 (9-136) 
中 的 学 习 率 参 数 几 , 的 计算 值 是 1.1205 x 10-*， 几 = u= 0.054,， 满 足 不 等 式 (9-137). 76000 
个 训练 回合 之 后 PLSNET-C 收 敛 ， 在 图 9-20e 中 描述 了 3 个 权 值 装载 向 量 。 观 察 图 9-20e， 明 显 
可 以 发 现 只 有 前 两 个 PLSR 因 子 应 该 保留 ， 以 使 用 PLSNET-P 来 预测 。 图 9-20e 描 述 了 第 三 个 权 
值 装载 向 量 (对 比 前 两 个 信号 相对 不 稳定 的 信号 ) 与 噪声 相关 ， 因 此 不 应 该 保留 。 只 有 前 两 
个 PLSR 因 子 的 保留 已 经 使 用 独立 确认 和 交 又 确认 方法 证 明了 。 使 用 测试 集 {hes, ciew)， 再 使 
用 PLSNET-P 产 生 浓 度 预测 ,其 中 由 PLSNET-C 求 取 的 突 触 权 值 系 列 { 声 ,B, 0,}, h= 1,2, (h°), 
( 即 ， 前 两 个 PLSR 因 子 )。 使 用 式 (9-109) 的 表达 式 ，SEP 计 算 为 5.16mg/dL， 这 大 约 比 使 用 
CLS 方 法 的 SEP 计 算 小 13 倍 。 图 9-20f 描 述 了 PLSNET-P 预 测 。 将 图 9-20a 所 描述 的 模糊 分 量 与 
图 9-20e 所 描述 的 第 一 PLSR 权 值 装载 向 量 ( 即 ， 与 模糊 向 量 相 似 的 向 量 ) 进行 对 比 是 很 有 趣 
的 。 这 是 不 一 致 的 ， 事 实 上 ， 利 用 PLSR (或 者 PLSNET-C) 从 数据 中 求 取信 息 是 典型 的 ， 因 
为 访 是 对 模糊 分 量 的 一 阶 近 似 。 在 PLSNET-C 中 从 阶段 1 到 阶段 2<， 与 第 一 权 值 装载 向 量 色 相关 
的 计 分 (或 者 隐 式 变量 ) 向 量 和 以 及 装载 向 量 各 用 于 产生 第 一 谱 残 留 ， 见 图 9-16。 因 此 ， 对 于 
模糊 分 量 的 近似 值 从 谱 数 据 中 剔除 ， 这 一 过 程 将 持续 到 PLSNET-C 的 下 一 阶段 。PLSNET 相 比 
CLS 能 够 为 测试 数据 更 好 地 预测 浓度 ， 这 是 由 于 PLSR 因 子 分 析 能 力 。 也 就 是 说 ， 在 PLSNET 
中 ，100 个 中 只 有 2 个 因子 为 预测 而 保留 ， 而 CLS 使 用 所 有 包括 与 噪声 相关 的 100 个 因子 ， 这 将 
增 大 CLS 相 对 于 PLSNET 的 预测 误差 。 


9.7 和 鲁 棒 PLSR: 一 种 神经 网 络 方法 


如 9.6 革 所 述 ， 非 线性 PLSR 神 经 网 络 已 经 得 到 开发 [129, 130]。 这 些 网 络 包括 典型 的 非 线 
性 激活 函数 ， 因 此 ， 执 行 训 练 过 程 可 以 完成 一 个 非 线 性 上 映射。 但 是 ， 这 里 提出 的 鲁 棒 PLSR 方 
法 是 基于 与 前 面 描述 相同 的 线性 PLSNET 结 构 ， 而 学 习 规 则 是 基于 Ham 和 McDowall[133-137] 
开发 的 非 二 次 代价 函数 。 也 就 是 说 ， 使 用 统计 误差 代价 函数 产生 的 比 二 次 方 要 少 ， 后 者 允许 
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考虑 与 输入 相关 的 高 阶 统计 。 当 经 验 数据 包含 冲击 和 有 色 噪 声 以 及 出 格 点 时 ，PLSR 的 证 化 用 
来 鲁 棒 结 果 。 由 Karhunen 和 Joutsensalo[41] (对 于 和 鲁 棒 PCA) 以 及 Cichocki 和 Unbehauen[381] 
(对 于 和 鲁 棒 的 求解 线性 方程 组 ) 开发 的 鲁 棒 性 技术 可 以 直接 应 用 于 PLSNET。 在 加 权 函 数 假设 
为 二 次 方 的 〈 即 ， 均 方 误差 标准 ) 且 加 权 矩 阵 假定 为 单位 矩阵 ，9.6 节 的 PLSNET 学 习 规则 可 
以 复原 的 情况 下 ， 从 某 种 意义 上 ， 用 于 和 鲁 棒 PLSR 神 经 网 络 的 学 习 规则 的 结果 是 一 般 的 。 后 面 
提出 的 几 个 非 线性 加 权 国 数 可 以 用 于 进行 鲁 棒 PLSR。 有 一 些 与 在 9.3.6 节 提出 的 对 于 鲁 棒 PCA 
的 情况 是 一 致 的 。 
我 们 首先 对 权 值 装载 向 量 声 (h = 1, 2，… hn”。 其 中 如 是 PLSR 因 子 的 最 佳 数目 ) 推导 和 鲁 棒 
PLSNET 学 习 规 则 。 对 于 权 值 装载 向 量 统计 误差 代价 函数 可 以 写成 如 下 形式 
L,(w,)=1 SEU (ez )} (9-139) 
其 中 
ea 一人 本 一 Ci (9-140) 
从 式 (9-131) H, e eR", Kha eR 是 单一 测量 或 者 观察 ，i = 1, 2, …, m (me Ml 
量 或 者 观察 的 总 数 ) ，c e 避 是 与 测量 或 者 观察 相关 的 目标 值 ，5,, e R**" 是 正定 的 (S, > 0)、 
对 称 (Sl =S,) 加 权 和 矩阵 ， 在 式 (9-139) 中 f(: ) 是 一 个 合适 的 非 线 性 加 权 函 数 ( 山 函数 或 
者 接近 是 函数) WRI = [1, …, eR" ire, AAS, 是 引入 来 允许 不 同 地 为 误差 
向 量 ex 元 素 加 权 的 。 采 用 一 种 最 速 下 降 方法 推导 PLSR 权 值 装载 向 量 的 离散 时 间 和 鲁 棒 学 习 规 
则 ， 即 
Wa (k + 1) = 0, (K) = HV y Ly (Wn) (9-141) 
我 们 发 现 必须 计算 梯度 VY。 工 , (w )。 当 式 (9-139) 的 梯度 相对 于 wi 计算 时 ， 只 考虑 瞬时 值 。 
因此 ， 期 望 运 算 符 E{ : } 被 丢掉 ， 结 果 是 


VE m) = eee) eS, g(e*)= cS, (4, — cab,) (9-142) 
ow, 
其 中 8(D) = djf(D/dt。 使 用 式 (9-141) 以 及 式 (9-142) ， 权 值 装载 向 量 的 瞬时 鲁 棒 PLSNET 学 
习 规 则 可 以 得 到 如 下 
Wi, (k + 1) = Ww, (k) + Hy Sp cigla; — cw O] (9-143) 


Ku, > 0 是 学 习 率 参数 ， 且 对 于 线性 PLSNET 的 情况 ， 可 以 根据 式 (9-136) 来 设置 。 

在 我 们 讨论 对 于 装载 向 量 和 回归 系数 的 两 个 瞬时 鲁 棒 学 习 规 则 之 前 ， 从 式 (9-143) 我 们 
观察 发 现 : (1) 如 果 S, = I, ARSO = L2r (用 于 线性 PLSNET 的 二 次 方 加 权 国 数 ， 即 ， 均 
方 误差 标准 )， 那 么 对 于 线性 PLSNET 的 情况 ， 式 (9-143) 与 式 (9-135) 是 相等 的 。(2) 将 
BERES, 包含 在 式 (9-143) 中 ， 学 习 规则 可 以 看 作 是 加 权 最 小 二 乘 [38]。(3) MRS, = 
diag[1/@]， 其 中 对 于 i = 1, 2, …, n, 是 测量 矩阵 列 向 量 的 方差 ， 即 4 =[a,, a), ---,a,)7ER"™", 
如 9.4 节 [ 见 式 (9-93) ] 所 描述 的 ， 这 就 是 9.5 节 对 于 PLSR1 校 正 算法 所 讨论 的 方差 规整 处 理 。 
在 这 种 情况 下 ， 和 矩阵 5S, 将 唯一 一 次 应 用 于 完成 方差 规整 。 但 是 ， 如 果 不 是 所 有 的 测量 数据 ， 即 
A 认为 是 先 验 的 ， 那 么 这 一 过 程 将 不 会 执行 。(4) AES, = 7， 在 式 (9-143) 中 项 ci g(a 一 ciW) 
是 式 (9-139) 中 的 统计 误差 代价 函数 梯度 的 负 值 。 但 是 ， 如 果 S, BSL, (w,) = 17E{f (e*)} 相 
关 的 黑 塞 矩阵 (参照 A.3.5 节 ) owt, BIW, = WL (w )， 同 时 如 前 所 述 ， 梯 度 将 是 V, 工 , w) = 一 
cga cw), 那么 式 (9-143) 可 以 看 作 是 牛顿 方法 (参照 A.5.3 节 )。 在 这 种 情况 下 , 式 (9-143) 
可 以 写成 
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W,(k + 1) =, + HVwL, (w, ) (9-144) 

$a Hb, eR" AREAKO, ER (h = 1, 2, …, h) 的 瞬时 鲁 棒 PLSNET 学 习 规 则 

可 以 使 用 与 推导 权 值 装载 向 量 学 习 规则 的 相似 过 程 来 处 理 。 装 载 向 量 的 统计 误差 代价 函数 可 
以 写成 


L,(b,) = V S,E{ f(e’,)} (9-145) 
HES ER", S,>0, SP=S,, ef ER" 可 以 写成 
es =a; tab, (9-146) 
( 见 表 9-1) ， 以 及 
ty = Wha, (9-147) 


就 是 在 9.5 节 中 解释 的 测量 强度 。 使 用 式 (9-145) ， 对 于 装载 向 量 的 瞬时 鲁 棒 PLSNET 学 习 规 
则 有 如 下 形式 


É, (k +1) =b, (K) + by Spb, gla; — tb (A)] (9-148) 
Sty, > 0 以 及 应 科 也。 标量 回归 系数 的 统计 误差 代价 函数 可 以 写成 
L, (0) =S E{ ex)} (9-149) 
其 中 sw> 0， 以 及 ex eRAUSM 
C= CG Di , (9-150) 
( 见 表 9-1) 。 利 用 式 《9-149)， 回 归 系数 的 瞬时 和 鲁 棒 PLSNET 学 习 规 则 有 如 下 形式 
Ô, (k+ 1) = Ô, (k) + My Spey glei — ên Ô, O] (9-151) 


#pu,> 0, H, WIE, SeYEPLSNETHI ASK (9-137) 就 应 用 于 和 鲁 棒 PLSNET。 

在 我 们 提出 鲁 棒 PLSNET 算 法 之 前 ， 需 要 讨论 一 下 加 权 函 数 f(: ) 的 选择 问题 。 有 几 个 加 
权 函 数 适合 于 和 鲁 棒 PLSNET 校 正 。 在 这 里 提出 的 加 权 函 数 集 并 不 包含 在 内 ， 但 是 讨论 的 特殊 加 
权 函 数 是 一 般 用 于 和 鲁 棱 处 理 [38, 41, 138-140] 的 非 线 性 函数 。 特 别 是 ，M 估 计量 [139，140] 加 权 
函数 已 经 应 用 于 使 用 神经 网 络 [138] 的 鲁 棒 主 成 分 估计 ， 同 时 也 被 Chen 和 Jain{1411 应 用 于 对 于 
和 鲁 棒 函数 近似 的 反 向 传播 神经 网 络 。 表 9-2 描 述 了 加 权 函 数 (f) 以 及 导数 g(t) = df (nD/di。 
图 9-21 描 述 了 表 9-2 中 的 每 一 个 B = 1 的 加 权 函 数 ， 以 及 图 9-22 描 述 了 每 一 个 加 权 凶 数 的 导数 。 
从 图 9-21 中 可 以 发 现 对 于 每 一 个 用 于 和 鲁 棒 PLSNET (B= 1) 的 加 权 函 数 ， 函 数 提出 的 特殊 的 
加 权 (te{ 一 1, 1]) 实际 是 二 次 的 。 但 是 ， 
在 的 这 个 范围 以 外 ， 随 1 增长 加 权 函 数 
低 于 二 次 的 产生 较 少 的 。 因 此 ， 错 误 的 
训练 数据 (出 格 点 ) 重要 性 显著 地 降低 ， 
或 者 基本 上 彻底 滤 出 ( 见 图 9-22)， 假 设 
训练 PLSNET 校 正 网 络 的 鲁 棒 性 ， 并 在 | 
冲击 或 者 有 色 咖 声 存 在 时 改善 相对 于 二 
次 加 权 情 况 的 性 能 。 用 于 和 鲁 棒 PLSNET 
的 加 权 函 数 的 选择 依赖 于 训练 数据 的 特 
征 。 因 此 ， 特 殊 的 加 权 函 数 一 般 靠 经 验 
选择 。 但 是 ， 在 调节 p 值 的 时 候 需 要 注 
意 。 例 如 ， 如 果 PB 值 对 于 对 数 函 数 设置 
得 太 小 ( 见 表 9-2)， 由 函数 提供 的 加 权 图 9-21 用 于 和 鲁 棒 PLSNET (B=1) 的 加 权 函 数 





> 
w 
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会 彻底 地 (或 几乎 ) 拒绝 所 有 的 训练 输入 。 因 此 ， 神 经 网 路 根本 就 不 会 训练 。 相 反 ， 如 果 P 设 
置 得 过 高 ， 加 权 会 造成 二 次 的 情形 ， 鲁 棒 性 会 消失 。BP 值 的 典型 范围 是 在 0.7< pbB<8 之 间 选 择 。 


表 9-2 MMPLSNETAI MAR 














Ina BCS (OLB > 0) 微分 e=% 
HERA S(O = B Incosh a, (t)= Banh 
2 
= 对 于 < 有 -有 对 于 (< 一 
Huber $ fa) = p HEld > B Eul) =4t 对 于 四 <B 
Bf- 二 B 对 于 (> 有 
2 
Z 对 于 ll<B 0 对 Fi< -有 
Talwar% O=] 7， gr(D)=1t 对 于 lt|<pB 
E 对 于 ll > B 0 对 于 > 有 
、 l-e _ 4Bre 
MM 评价 函数 fu (0) =—— Oy 





基于 逆 建 模 的 鲁 棒 PLSR 另 一 个 公式 已 经 有 所 发 展 [137]。 这 一 方法 相 比 前 向 建 模 方法 ,其 
主要 优点 是 较 少 的 计算 需求 。 
鲁 棒 PLSNET 前 向 建 模 校 正 处 理 可 以 总 结 成 下 面 的 算法 。 


鱼 棒 PLSNET 校 正 算法 





ee 本 
{a;, ci = 1,2, =, m 

FRI WE (最 优 因子 数目 )， 设置 h = 1。 

步骤 2 计算 学 习 率 参数 : 


步骤 3 AKGHEES,, SUR REMAKE. 
步骤 4 选择 一 个 适当 的 加 权 函 数 F(D， 同 时 设置 B 值 。 
步骤 5 WIM, b,, UR. 

步骤 6 Bi=1, 

步骤 7 (a) W, Wa + USC, gl cW,) 

Ý, w, 

IW, Il, 





(b) 


(c) fn = wia, 

(d) É, e By + MoSoin gla; — Enba) 

(e) Ô, — 6,4 My Sof ni BCC; — Ld,) 

如 果 i = m， 转 到 步骤 8， 知 则 i 一 i+ 1， 然 后 转 到 (a), 
步骤 8 如 果 h =h”， 转 到 步骤 9， 否 则 hh 一 h+ 1， 然 后 转 到 步 绝 6。 
步骤 9 如 果 达 到 收敛 ， 停 止 ， 否 则 ， 置 六 = 1， 然 后 转 到 步骤 6。 口 








BOF 使 用 神经 网 络 的 统计 方法 337 


加 权 函 数 微分 





图 9-22 图 9-21 中 加 权 函 数 的 导数 (B= 1) 
使 用 独立 测 数据 集 ， 通 过 计算 SEP 来 确定 收敛 ， 见 式 (9-109), 
在 前 面 描述 的 鲁 棒 PLSNET 校 正 算法 中 ， 如 果 权 值 矩 阵 选 择 为 黑 塞 矩 阵 的 逆 ， 那 么 可 以 使 
用 的 最 好 加 权 函 数 是 对 数 函 数 。 对 于 比 截止 参数 B 值 幅度 大 的 值 ，Huber 和 Talwar 加 权 函 数 推 
出 二 阶 导数 为 零 。M 估 计量 加 权 函 数 导 出 一 个 复杂 的 二 阶 导数 的 表达 式 。 即 使 牛顿 的 方法 提 
供 了 自身 自 适 应 学 习 率 ， 标 准 学 习 率 参数 {4 , Ls , Ls} 应 该 包括 在 学 习 规则 中 ， 因 为 一 次 只 有 
一 个 测量 在 进行 。 也 就 是 说 ， 牛 顿 方 法 典型 地 应 用 于 “批量 - 建 模 ”操作 中 。 但 是 ， 既 然 
PLSNET 一 次 只 处 理 一 个 测量 ， 一 个 完全 解 适 于 一 次 测量 是 不 理想 的 。 这 与 在 3.4.1 节 应 用 于 
前 馈 多 层 感 知 器 的 反 向 传播 共 轿 梯度 方法 的 情况 是 相同 的 原理 。 
习题 
9.1 假设 式 (9-25) 以 离散 时 间 向 量 形式 ， 设 计 一 个 单 节点 神经 网 络 来 完成 Oja 正 规 化 Hebb 
学 习 规 则 ， 从 而 估计 第 一 主 特 征 向 量 。 从 一 个 零 平 均 ， 单 位 方差 ， 正 态 (高 斯 ) 分 布 产 
生 两 组 独立 的 5000 个 随机 数据 。 标 定 第 一 序列 的 值 以 便于 方差 为 5 ( 即 ， 序 列 中 的 数 乘 
以 )。 使 用 式 (9-19) 的 表达 式 ， 从 随机 数 的 两 个 序列 中 估计 协 方差 和 矩阵。 计算 协 方差 矩 
阵 的 特征 值 以 及 特征 向 量 ， 利 用 标准 特征 值 程序 ， 例 如 MATLAB 的 eig 函 数 。 使 用 Oja 
离散 时 间 形 式 的 正规 化 Hebb 学 习 规 则 ， 计 算 第 一 主 特征 向 量 。 将 初始 突 触 权 值 向 量 元 素 
置 为 随机 值 ， 使 用 适当 的 固定 学 习 率 参数 的 估计 以 及 式 (9-28) 给 出 的 自 适应 算法 。 对 
于 收敛 必需 的 训练 回合 的 总 数 来 对 比 两 个 结果 。 对 比 神经 网 络 结果 与 使 用 标准 特征 值 程 
序 计算 的 特征 向 量 (与 最 大 特征 值 相对 应 )。 估 计 与 使 用 0ja 的 正规 Hebb 学 习 规 则 估计 的 
第 一 主 特征 向 量 相关 的 特征 值 。 提 示 : 如 例 9-1 中 的 证 明 ， 使 用 MATLAB 中 的 var ( 方 
差 ) 函数 ， 见 式 (9-29), 
9.2 ”考虑 由 下 式 随 机 差分 方程 给 出 的 一 个 宽 平稳 一 阶 离散 时 间 马 尔 可 夫 过 程 
x(k) = ox(k— 1) + wk) 
Hrha=0.9,x,weR*', wee Tht Eee SHR 
5 0 0 
0 3 0 
0 0 Ol 


C, = 
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9.6 


9.7 


(a) 计算 协 方差 矩阵 C, = E{xx’ }。 

(b) 计算 C, 的 理论 特征 值 以 及 特征 向 量 。 

(c) 建构 一 个 神经 网 络 以 实现 在 式 (9-45) 中 提出 的 向 量 -矩阵 形式 的 Karhunen-Oja 的 对 
称 子 空间 学 习 规 则 的 离散 时 间 形式 。 使 用 适当 固定 的 学 习 率 参数 以 及 式 (9-48) WA 
适应 算法 。 使 用 你 开发 的 网 络 求 取 两 维 主子 空间 。 求 解 介 于 “0ja 的 子 空间 ”以 及 理 
论 子 空间 之 间 的 角度 ， 即 由 部 分 (b) 计算 的 前 两 个 特征 向 量 张 成 的 子 空间 。 

建构 一 个 神经 网 络 来 实现 Sanger 的 广义 Hebb 算 法 。 式 (9-53) 给 出 了 标量 学 习 规 则 的 离 

散 时 间 形 式 。 使 用 你 开发 的 网 络 为 在 问题 9.1 产 生 的 数据 求 取 两 维 主子 空间 [ 即 ， 前 (也 

只 有 ) 两 个 主 特征 向 量 ]。 使 用 适当 固定 的 学 习 率 参数 以 及 式 (9-48) 给 出 的 自 适 应 算法 。 

求解 介 于 “Sanger 的 子 空间 ”以 及 理论 子 空间 之 间 的 角度 。 

在 问题 9.2(c) 以 及 问题 9.3 中 使 用 自 适应 学 习 率 参数 以 及 带 有 遗忘 因子 (7) 的 试验 。 观 察 

对 于 收敛 速 庆 的 影响 。 

36 EBS x(k) = s(k) + wk), k=0,1,2,-- 


其 中 
T 
s= sin( 22 1} sin( 2 2); . -sl 2 20) e R 
20 20 20 


we R20*! 
是 包含 如 下 协 方差 的 零 平 均 高 斯 白 噪声 。 
C, = diag(o,, %,…, 只)eX 其 中 o; = 0.1 
(a) 使 用 Oja 单 节点 学 习 规 则 ， 求 取 C, 的 第 一 主 特征 向 量 。 使 用 式 (9-28) 中 给 出 的 学 习 
(b) 使 用 信号 s 来 对 比 估计 的 第 一 主 特征 向 量 ， 然 后 解释 发 生 了 什么 。 
非 线 性 迭代 局 部 最 小 二 乘 (NIPALS) 方法 是 一 种 迭代 的 求 取 正定 矩阵 C, 的 有 不 同 特征 
值 的 特征 向 量 方法 。 
(a) 令 e 是 与 C. 的 最 大 特征 值 相 对 应 的 特征 向 量 。 


以 及 


考虑 如 下 迭代 过 程 
w(k+1)=C,w(k) 
w(k-+1) = "+D 
Ilw(k + Dil, 


其 中 上 = 0, 1, 2, …, w 是 一 个 合适 维 数 的 随机 向 量 。 
证 明 limw(k) =e, 


(b) 证 明 以 下 可 以 用 于 求 取 第 二 主 特征 向 量 的 降 阶 技术 : 

C™ = Tee! CI — ee") 
其 中 DD 是 C, 的 第 一 次 降 阶 的 设计 器 。 这 称 作 C 的 降 阶 变换 。 
注意 : 部 分 (a) 与 部 分 (b) 一 起 组 成 了 NIPALS 方 法 ， 以 及 部 分 (b) 中 的 降 阶 过 程 的 延续 来 
求 取 高 阶 主 特征 向 量 。 
建构 一 个 神经 网 络 用 以 实现 式 (9-58) 中 的 标量 形式 Oja 随 机 梯度 上 升 (SGA) 学 习 规 则 
的 离散 时 间 形 式 。 使 用 式 (9-48) 给 出 的 学 习 率 参数 的 自 适应 算法 。 
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9.8 


9.9 


9.10 


9.11 


9.12 


9.13 





(a) 利用 零 平均 单位 方差 正 态 分 布 ， 产生 3 组 独立 的 1000 个 随机 数 。 规 定 第 二 序列 的 值 范 
围 以 便 方差 为 0.01。 规 定 第 三 序列 的 值 范围 以 便 其 方差 为 0.001。 

(b) 使 用 0ja 的 SGA 算 法 估计 所 有 与 在 部 分 (a) 产生 的 随机 数据 相关 的 协 方差 矩阵 的 主 特征 
向 量 。 假 设 随机 初始 突 触 权 值 。 这 一 过 程 可 能 需要 几 个 训练 回合 ， 即 几 个 1000 个 随 
机 向 量 的 表达 。 对 于 这 一 训练 神经 网 络 的 方法 ， 初 始 学 习 率 参数 可 以 对 于 每 一 个 训 
练 回 合 重新 计算 ， 其 中 前 面 训练 回合 应 用 的 突 触 权 值 作为 下 一 训练 回合 的 初始 权 值 。 

(c) 使 用 Sanger 的 GHA 重 复 部 分 (b)。 对 比 你 得 到 的 结果 ， 特 别 是 收敛 必需 的 训练 时 间 
总 量 。 

在 9.3.2 节 中 ，Karhunen-Oja 对 称 子 空 间 学 习 规则 是 从 式 (9-38) 的 均 方 误差 标准 推导 而 

来 。 结 果 离 散 时 间 向 量 矩 阵 学 习 规 则 在 式 (9-45) 中 提出 。 均 方 误差 标准 可 以 修改 以 包 

含 一 个 正定 对 称 加 权 甜 阵 Se R"**， 即 LW) = 1/2e Se。 

(a) 使 用 L(W) = L/2e7$e 作 为 误差 代价 函数 推导 向 量 矩 阵 形 式 的 离散 时 间 加 权 对 称 子 空 间 
学 习 规 则 。 

(b) 从 部 分 (a) 推导 的 结果 ， 令 8 = I， 同 时 利用 合理 的 假定 证 明 式 (9-45) 中 的 学 习 规则 
的 结果 。 因 此 ， 加 权 对 称 子 空间 学 习 规 则 是 一 般 的 情况 。 

如 同 9.3.6 节 所 述 ， 标 准 线性 PCA 可 以 起 源 于 一 个 线性 变换 方差 E{[wyz] } 最 大 化 的 优化 解 

(i= 1 2, ++, m), 或 者 正 交 约束 即 WW? = TER" 条件 下 的 ， 最 大 化 线性 网 络 的 输出 。 使 

用 方差 最 大 化 方法 推导 求 取 第 一 主 特 征 向 量 w, 的 离散 时 间 学 习 规则 。 你 所 推导 的 学 习 规 则 

与 式 (9-25) 的 结果 应 该 是 一 致 的 ， 是 使 用 代价 函数 的 表达 误差 公式 的 最 小 化 来 得 到 的 。 

提示 : 将 (要 求 最 大 化 的 ) 代价 函数 公式 化 如 LWw)= 0, 一 AWwiwi -1), by, = wir, 

oà = wi Cw LARC, = E[xx ]。 这 一 代价 函数 的 公式 化 是 基于 约 东 最 优化 问题 的 拉 格 朗 日 

乘 子 方法 (参照 A.6.2 节 )， 其 中 拉 格 朗 日 乘 子 是 与 第 一 主 特征 值 久 相关 的 ， 同 时 约束 条 件 

Eww = 1。 同 样 ， 因 为 第 一 主 特征 向 量 是 使 用 学 习 规 则 来 估计 的 ， 因 此 只 考虑 输入 的 

瞬时 值 。 

设计 一 个 APEX 神 经 网 络 来 实现 估计 前 馈 以 及 侧 向 权 值 的 两 个 学 习 规 则 。 使 用 在 9.3.5 证 

概述 的 APEX 算 法 。 利 用 固定 学 习 率 参数 ， 基 于 在 问题 9.7(a) 中 产生 的 数据 来 测试 你 的 

神经 网 络 。 如 同 Dja 的 SGA 以 及 Sanger 的 GHA 方 法 ， 这 一 神经 网 络 同样 典型 地 需要 训练 

输入 向 量 的 重复 提交 。 将 你 的 结果 与 问题 9.7 中 得 到 的 结果 相对 比 。 可 以 得 到 什么 样 的 

结论 呢 ? 

可 以 发 现 网 络 经 过 训练 以 后 ，Sanger 的 GHA 方 法 以 及 Kung 以 及 Diamantaras 的 APEX 算 

法 可 以 得 到 相同 的 稳 态 点 。 请 证 明之 。 

(a) 在 9.5 节 中 提出 了 PLSR1 校 正 算法 。 编 写 一 个 计算 机 程序 ， 适 宜 在 MATLAB 中 ， 来 实 

现 校正 过 程 (为 数据 的 平均 中 心 以 及 方差 规整 ， 忽 略 算法 中 的 第 一 步 )。PLSR 因 子 的 数 

目 应 该 是 你 的 程序 中 的 一 个 变量 。 

(b) 写 出 两 个 附加 的 计算 机 程序 来 分 别 实现 两 个 在 9.5 节 中 提出 的 PLSR1 预 测算 法 ， 即 预 
测 方 法 1 以 及 预测 方法 2。 

常常 存在 几 个 感 兴趣 的 分 量 包 含 于 由 一 个 特殊 过 程 产生 的 测量 数据 中 。 如 例 9.4 所 述 ， 

对 于 合成 近 红 外 数据 ， 由 神经 过 程 (PLSNET) 实现 的 单一 分 量 PLSR1 算 法 能 够 获取 满 

足 于 单一 旭 标 值 (参考 中 心 ) 的 信息 ， 同 时 推导 出 较 之 CLS 方 法 更 好 的 预测 性 能 。 当 希 

望 增加 兴趣 分 量 ( 儿 组 目标 值 ) 而 使 用 PLSR 时 ，PLSR1 方 法 是 不 能 直接 应 用 的 。 多 分 

量 PLSR 方 法 已 经 有 所 发 展 [7, 10, 13]。 但 是 一 般 情况 下 ， 当 使 用 这 些 方法 来 开发 一 个 可 
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以 预测 多 分 量 的 单一 模型 时 ， 性 能 的 牺牲 是 可 以 预知 的 。 作 为 一 个 选择 ， 可 以 使 用 

PLSR1I 算 法 ， 但 是 要 为 每 个 分 量 单独 使 用 ( 即 ， 不 同 组 的 目标 值 )。 换 名 话说， 对 于 每 

一 个 感 兴趣 的 分 量 ， 存 在 目标 值 (参考 值 ) ，PLSR1 算 法 可 以 独立 地 使 用 ， 对 于 每 一 个 

连续 的 兴趣 分 量 产生 一 组 独立 的 权 值 装载 向 量 、 装 载 向 量 以 及 回归 系数 。 

(a) 为 PLSR 设 计 一 个 神经 网 络 〈 即 ，PLSNET) 。 即 ， 为 校正 阶段 开发 PLSNET-C， 用 于 
- 预测 的 PLSNET-P。 为 它们 分 别 编 写 MATLAB 函 数 。 

(b) 编写 一 个 可 以 执行 CLS 的 计算 机 程序 。 | 

(c) 在 McGraw-Hill 站 点 ， 在 http://www.mhhe.com/engcs/electrical/ham 下 载 为 这 个 问题 
指定 的 数据 。 你 将 发 现 两 组 的 数据 : (1) 与 例 9.4 中 使 用 相同 的 数据 (这 指定 为 
P9 13_Date_Set_1) ， 即 训练 以 及 测试 数据 ，(2) 另 一 个 数据 集 (P9_13_Data_Set_2) 
由 使 用 与 两 组 目标 值 相 联 系 的 依赖 变量 块 来 训练 的 独立 变量 块 矩阵 ， 以 及 另 一 个 等 
价 测试 数据 集 组 成 。 在 第 二 个 数据 集中 的 测量 数据 与 第 一 个 数据 集中 的 是 相同 的 ， 
除了 一 个 附加 的 兴趣 分 量 是 新 引入 的 。 因 此 ， 在 训练 以 及 测试 数据 集中 存在 着 第 二 
个 目标 值 列 。 

(d 使 用 在 部 分 (a) 开发 的 PLSNET， 重 复 例 9.4 中 描述 的 结果 ， 使 用 只 包含 数据 中 单 分 量 
的 第 一 数据 集 。 你 将 得 到 一 组 权 值 装载 向 量 、 装 载 向 量 以 及 回归 系数 。 绘 制 出 测试 
数据 的 预测 回归 结果 ， 计 算 SEP (与 例 9.4 中 的 数值 相等 )。 问 题 9.12 的 PLSR1 校 正 以 
及 预测 计算 机 程序 可 以 用 于 核实 必须 保留 的 PLSR 因 子 的 数目 。 

(e) 使 用 你 的 部 分 (b) 的 CLS 计 算 机 程序 开发 CLS 校 正 模型 ， 并 且 产 生 对 测试 数据 的 预测 。 
在 一 个 独立 的 图 上 描绘 回归 结果 ， 计 算 SEP。 

(f) 使 用 包含 两 个 感 兴 趣 得 分 量 以 及 PLSNET 的 第 二 数据 集 ， 选 择 合理 数目 的 PLS 因 子 ， 
然后 产生 合适 两 组 权 值 装载 向 量 、 装 载 向 量 以 及 回归 系数 。 将 开发 两 个 校正 模型 。 
PLSR1 校 正 模型 以 及 问题 9.12 的 预测 计算 机 程序 可 以 再 一 次 用 于 核实 需要 保留 的 
PLSR 因 子 的 数目 。 为 两 个 分 量 产 生 预 测 ， 使 用 与 特殊 的 感 兴趣 分 量 相关 的 测试 数据 
以 及 合适 的 权 值 装载 向 量 、 装 载 向 量 以 及 回归 系数 。 为 独立 的 分 量 分 别 绘制 回归 结 
果 。 为 分 量 分 别 计算 SEP。 

(g) 利用 部 分 (b) 的 CLS 计 算 机 程序 开发 两 个 用 于 两 个 不 同 分 量 的 CLS 校 正 模型 ， 对 两 个 
测试 数据 集 生 成 预测 。 在 分 别 的 图 上 画 出 预测 的 回归 结果 ， 并 且 对 两 个 分 量 计算 
SEP。 i 

(h) 对 比 由 在 部 分 (f) 以 及 部 分 (g) 得 到 的 性 能 结果 。 你 可 以 得 到 什么 结论 呢 ? 

(i) 将 在 部 分 (了 中 使 用 PLSNET 得 到 的 第 一 分 量 的 预测 性 能 与 在 部 分 (d) 中 得 到 的 相对 比 。 
你 会 得 到 什么 结论 呢 ? | 
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第 10 章 “使 用 神经 网 络 进行 辨识 、 控 制 和 估计 


10.1 概述 


本 章 是 关于 不 同类 型 的 神经 网 络 在 信号 处 理 、 辨 识 、 分 类 、 控 制 和 估计 问题 中 的 应 用 。 
特别 是 ， 分 别 运 用 自 回 归 诊 动 平均 (ARMA) 和 非 线性 ARMA (NARMA) 模型 对 线性 系统 
和 非 线性 系统 的 参数 辨识 进行 了 讨论 。 对 非 线 性 系统 的 控制 和 随后 的 盲 源 分 离 问 题 ( 即 ， 运 
用 独立 成 分 分 析 法 (ICA) 对 未 知 源 信号 进行 分 离 ) 也 进行 了 讨论 。 然 后 ， 讨 论 了 用 部 分 最 小 
二 乘 回归 法 进行 频谱 估计 ， 在 本 章 的 最 后 一 节 给 出 了 运用 神经 网 络 解决 两 类 重要 问题 的 实例 


研究 。 
10.2 ”线性 系统 的 表示 法 


本 章 我 们 只 讨论 离散 线性 时 不 变动 态 系统 的 表示 法 。 用 两 种 基本 的 方法 来 描述 动态 系统 ， 
输入 /输出 (或 传递 函数 ) 法 和 状态 空间 法 。 着 重 讨论 单 输入 单 输出 (SISO) 的 情况 。 由 于 自 
然 现象 非常 复杂 ， 在 某 些 情况 下 ， 现 有 的 科学 知识 不 能 充分 解释 我 们 关心 的 一 些 动态 系统 
(设备 ) 。 然 而 ， 可 以 根据 实验 数据 构建 一 个 系统 模型 ， 也 就 是 说 ， 可 以 用 适当 的 输入 激发 设 
备 ， 对 反应 进行 测量 。 通 过 这 些 输 入 /输出 数据 ， 可 以 构建 一 个 模型 对 未 知 的 设备 参数 进行 估 
计 ， 这 称 为 系统 辨识 [1-4] 。 我 们 关注 进行 参数 辨识 的 模型 ， 而 不 是 非 参 数 模型 的 辨识 [1-4]。 

在 用 输入 /输出 (传递 函数 ) 法 描述 离散 时 间 线 性 非 时 变动 态 系统 时 ， 严 格 正常 有 理 传 递 
函数 形式 假定 如 下 : 


Y(z) bz +b,z" 2 +b" +e +b 


H(z) = z (10-1) 


U(z)  z"+az"™' +a," ++ +a 


其 中 z 为 复 变量 。 当 用 状态 空间 表示 动态 系统 时 ， 状 态 变量 的 规范 形式 或 可 控 的 正则 形式 ?是 
设 定 的 〈 详 见 A.2.12 节 )， 状 态 方程 形式 如 下 : 


0 1 0 0 … 0 0 
0 0 1 0 0 0 
有 0 
x(t)= 0 0 0 we | 0 x(t)+ u(t) (10-2) 
0 0 0 0 1 0 
-a, -a,i -Ga ~d, 一 di 1 


输出 (测量 ) 方程 由 下 式 给 出 : 
yD = [b,, By 1 Bu ay xD (10-3) 
参数 辨识 的 目的 是 估计 与 所 关注 的 系统 相关 的 参数 向 量 (8) ， 也 就 是 式 (10-1) RA (10-2) 


O 也 可 以 假定 可 观察 的 正则 形式 [5] (这 是 可 控 的 正则 形式 的 对 侦 )。 
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和 式 (10-3) 中 出 现 的 系统 参数 。 
6 = [a,, Gy, ,dd,, b,, bo, b, |" (10-4) 


10.3 自 回归 滑动 平均 模型 
从 式 《10-1) 的 传递 函数 可 以 得 到 一 个 如 下 的 时 域 差分 方程 : 
yk) + ay(k - 1) + a,y(k — 2) +++ +4, y(k - 1) 
—b,u(k - 1) - b,u(k - 2) - b,u(k - 3) —---- b,u(k - n) (10-5) 
= E(k; a), ,,°°*,4,, bis ba, b,,…, bp) 
Helk; dis das, °°" Ap, b,, b,b, aos b,) 是 一 个 误差 项 ， 当 参 数 向 量 
8 = [a,, a, =, ap, bi by, +, bp] (10-6) 
包含 实际 的 或 真实 的 设备 参数 时 为 0[2]，k 是 离散 时 间 索 引 。 方 程 (10-5) 也 可 写 为 ; 
y(k) = 6" (kK)0 + e(k; 0) (10-7) 
其 中 
9 (k) = [-y(k - 1), - yk - 2), +- 
-y(k ~n), u(k - 1), u(k - 2), uk -3),--, uk -n)] (10-8) 


Ot BS RAT Al =n, n+l, n+ 2,…, N, EREDAR, NEGE E (ulk), yo) h ME 
的 样本 总 数 ， 由 式 (10-7) 可 推出 如 下 方程 组 : 


J(N) = P(N)O + el(N, 0) (10-9) 
其 中 
y (N)=[y(n), y(n +1), y(n +2),.…, YNI] (10-10) 
并 且 中 (V) =[9(2), b(n + 1), n + 2),.…, O(N) (10-11) 
E (N; 8) =[e(n; 0),e(n + 1; 0),e(7 + 2; 8),---,€(N;8)] (10-12) 
P(N) ERN ARMA 数 据 矩阵 
win en 输出 向 量 
e(N, 0) ER% 误差 向 量 (10-13) 
BER” 系统 参数 向 量 


10.4 ”用 ARMA 模 型 的 线性 系统 辨识 


利用 传统 最 小 二 乘 (CLS) 法 解 方程 (10-9) 可 求 得 参数 向 量 6 (参见 9.4 节 )。 首 先 ， 性 
能 度量 定义 为 
J(8) = en, Di (10-14) 
其 中 由 式 (10-7) 得 E =J) 一 @9。 然 后 ， 将 其 对 6 进行 最 小 化 ， 即 


. . 2 
mip J() = min |e, O; (10-15) 
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FEN Zeon BH E uk), y(h)} 中 所 用 的 样本 总 数 ， 取 
N>2n (10-16) 
对 9 最 小 化 ||s(N, 9) 用 可 得 到 CLS 的 结果 : 
Bus =(@'@)'b"y (10-17) 
Herp Be Bethy HO, HH (10-6) 给 出 。 
现在 自然 有 一 个 问题 要 间 ， 存 在 唯一 的 解 四 ?或 者 说 式 (10-17) 的 解 6. ,是 唯一 解 吗 ? 
回答 这 个 问题 要 看 以 下 两 点 : (C) 如 何 选 取 参 数 向 量 8，(2) 用 什么 类 型 的 输入 信号 {A&(C6} 去 激 
发 系统 得 到 输出 序列 {y(k)}。 必 须 选择 一 个 典范 型 的 模型 或 ARMA 模 型 ， 才 能 得 到 唯一 的 参数 
集 。 参 数 向 量 9 称 为 可 辨识 的 ， 如 果 有 且 只 有 唯一 的 值 使 1(8) 最 小 ， 如 果 存 在 两 个 参数 向 量 9,、 
8,， 使 1(8,) = 7A(8;) ， 则 说 它们 是 等 价 的 [2]。 选 择 正确 的 输入 信号 的 问题 可 以 用 使 输入 必须 具 
有 nn 阶 持续 激发 的 方式 提出 [1, 2] 。 简 单 地 说 ， 输 入 信号 必须 能 充分 地 “激发 ”系统 ， 使 系统 
的 输出 有 足够 的 信息 对 它 的 属性 进行 辨识 (或 者 说 能 够 对 参数 向 量 8 进 行 正确 的 估计 )。 如 果 
输入 信号 的 离散 频谱 在 区 间 0 科 ww < wyV2 中 至 少 存在 2 个 非 零点 ， 则 它 就 是 一 个 " 阶 持续 激发 ， 
Eho 是 采样 频率 。 在 公式 (10-17) CLSH, EED DER” ” Um, Upo D) = 
2n, Franklin et al. PHE. MRED  @@ 的 右 下 区 分 量 (部 分 ) (2 xm， 只 依赖 于 输入 向 量 
{u(k)}) 是 非 奇 异 和 矩阵 ， 则 称 输入 信号 是 a 阶 持续 濑 发 。 举 例 说 明 ， 假 设 N = 6, = 3， 答 入 信 
号 是 一 个 常数 ， 即 x(k) = ec， 得 到 下 式 : 


中 中 


4 4 4 
y+ Dy +i) yi + l)y) y+ DyG-1) -cX y+) -cX yG+1) -c yG+) 
> > > > > > 


4 4 4 


gre Yvon DON- 1) “De Le -o0 


=l tad 


a 4 
Lr Dyli +1) yi- 1)y(i) X xi- DI-D “he D -cSyG-) “eed 
1 is 


{= i= 


=c Sw SM) -eS voi- e 4c? 4c? 


i=] i= 
4 4 


-cÑ y+) >) xÐ -e S yi-) 4c? 4c? 4c? 
per pe 
-9 yi +1) >) yli) =) yi - 1) 4e? 4e? 4e? 


(10-18) 


从 式 (10-18) 中 我 们 看 到 右 下 角 的 (3x3) EEKRETAER. MARAA S ulk) = 
c 不 是 " 阶 持续 沂 发 ， 关 于 参数 6 的 最 小 化 ||s(N, 96) 不 存在 唯一 解 。 

在 系统 辨识 中 ， 高 斯 白 噪 声 和 线性 调频 信号 这 两 种 很 重要 的 信号 可 以 用 来 进行 激发 动态 
系统 [6]。 也 有 其 他 类 型 的 信号 可 利用 ， 但 这 两 种 信号 在 系统 辨识 中 很 典型 可 适当 地 激发 模拟 
系统 。 图 10-1a 显 示 典 型 的 线性 调频 信号 ， 图 10-1lb 显 示 了 与 快速 人 埔里 时 变换 (FFT) 相关 的 幅 
度 。 在 图 10-lb 中 我 们 看 到 幅度 响应 包含 一 个 大 的 频段 ， 所 以 ， 保 证 了 兴奋 输入 信号 是 ? 阶 持 
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图 10-1 a) 线性 调频 信号 ，b) 线性 调频 信号 的 快速 傅 里 叶 转 换 幅 频 图 (相应 于 半 采 样 
频率 点 的 单位 正规 化 的 频率 ， 即 A/2 = 1) 


另 一 个 需要 讨论 的 重点 是 系统 维 数 的 选择 ， 即 系统 的 阶 2。 在 参数 系统 辨识 中 这 是 一 个 更 
有 具 挑战 性 的 问题 。 系 统 的 阶 数 是 一 个 未 知 量 ， 必 须 在 开始 时 选择 ， 而 且 要 尽 可 能 地 按照 所 佑 
计 结 果 去 调整 。 因 此 ， 选 择 系统 的 阶 数 n 可 能 是 一 个 迭代 过 程 。 经 验 知识 常 能 有 助 二 得 到 系统 
模型 的 阶 数 范围 ， 特 殊 应 用 也 有 助 于 系统 模型 阶 数 的 确定 。 人 们 已 经 提出 几 种 方法 来 帮助 选 
择 系统 阶 数 "?， 其 中 的 三 种 方法 描述 如 下 ， 它 们 都 基于 对 初始 数据 分 析 [1] : 

1. 检验 系统 传递 函数 的 频谱 估计 。 这 种 方法 是 从 输入 /输出 数据 {u(k), y(k)} 中 寻找 传递 函 
数 的 非 参 数 估计 。 

2. 测试 样本 协 方 差 矩 阵 的 秩 。 假 设 采用 ARMA 模 型 ， 从 输入 输出 数据 {u(k), y(R)} 对 样本 
协 方差 进行 估计 ， 应 用 式 (10-8) 中 给 出 的 和 ， 样 本 协 方差 矩阵 可 写 为 如 下 形式 : 


1 ~ T 1 7 
= 一 5 R 3 =—Ọ. A 10-19 
C,(N) Ne 中 (K)o; (k) Ne (N)®.(N) ( ) 


其 中 证 实际 (或 真正 ) 系统 维 数 7 的 估计 值 。 当 js 元 [假设 u(k) 是 持续 激发 ] 时 ， 式 (10-19) 
中 的 样本 协 方差 矩阵 是 非 奇异 矩阵 ， 当 六 > 元 + 1 时 ， 它 是 奇异 矩阵 。 很 明显 应 用 1C;(N) 上 = 
det[C,(M)] 能 够 测试 系统 模型 的 估计 阶 数 包 

3. 关联 变量 。 阶 数 判定 问题 也 可 以 看 作 是 讨论 在 模型 结构 中 是 否 包 括 另 一 个 变量 ， 即 在 
式 (10-5) 中 附加 一 项 y(k 一 n 一 1) [或 者 一 个 可 能 的 扰动 变量 v(k) 的 附加 作用 ] ， 并 且 确 定 当 
明确 输出 y(k) 时 ， 这 个 附加 变量 起 到 了 什么 作用 。 这 可 以 通过 y( 和 v(R) 的 关系 计算 出 来 。 但 
是 ，y Hiv) 之 间 有 关系 ， 因 此 ，y(k) 和 a(k ; 多) 之 间 的 关系 可 以 计算 ， 其 中 sk; Â) =y- 
Xe Â) 构成 余数 。 这 就 是 正规 相关 或 部 分 相关 [7]。 

还 有 另 一 个 方法 也 可 用 来 判定 系统 的 阶 数 ， 这 个 方法 就 是 部 分 最 小 二 乘 回归 (PLSR) 
( 详 见 9.5 节 )， 或 是 PLSNET ( 详 见 9.6 节 )。PLSR 或 PLSNET 都 能 用 来 估计 参数 向 量 ， 同 时 系 
统 阶 数 " 也 可 以 通过 因子 分 析 得 到 。 这 是 下 一 节 的 主题 。 

在 本 节 讨 论 中 ， 提 到 多 种 方法 可 以 用 来 估计 系统 参数 向 量 9[1-4]。 一 个 非常 重要 的 方法 包括 
最 小 二 乘 递归 加 权 算 法 (RWLS) [1, 2]。 因 为 所 有 从 输入 /输出 数据 {u(k), y(A)} 得 到 的 可 用 数据 
同时 用 来 估计 参数 9， 式 (10-17) 的 结果 指 批量 解 。RWLS 方 法 的 两 个 主要 优点 是 : (1) RWLS 
是 一 个 迭代 算法 ， 自 适应 地 估计 参数 向 量 ，(2) 因为 在 递归 算法 中 加 权 函 数 w(k) = ayt, 过 


|472] 
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去 数据 (观察 ) 和 现在 数据 相 比 显得 不 重要 ， 因 此 ， 加 权 函 数 起 到 了 滤波 器 的 作用 。 


10.5 应 用 PLSNET 进 行 线性 系统 的 参数 系统 辨识 


部 分 最 小 二 乘法 用 来 进行 参数 系统 辨识 [8] ， 同 使 用 PLSNET 法 一 样 [9] 〈 详 见 9.6 节 ) ， 也 
利用 ARMA 模 型 。 首 先 根据 输入 /输出 数据 集 {wu(), y()} 建 立 训练 和 测试 集 如 下 : 
训练 数据 集 = {Drain N), yan(N)} (10-20) 
测试 数据 集 = {Dea N), yren(N)} . (10-21) 
训练 数据 集 和 测试 数据 集 选 自 集合 {a(O, OIRA. ER (10-20) 和 式 (10-21) 中 的 
两 个 数据 集 生 成 时 ， 设 定 系 统 的 阶 数 m 超 过 指定 的 值 ， 也 就 是 说 ， 如 果 7 是 系统 的 实际 维 数 ， 
那么 设 定 的 系统 维 数 是 > nn。 运用 PLSNET 来 处 理 参数 系统 辨识 的 目的 就 是 估计 系统 维 数 h 和 
参数 向 量 8。 
为 选择 最 优 的 PLSR 因 子 数 , 需 使 用 独立 确认 方法 ( 详 见 9.4 节 )。 当 神经 网 络 执行 PLSR 时 ， 
数据 矩阵 (独立 变量 块 ) 由 下 式 给 出 
4 = ®(N) (10-22) 
观察 向 量 、 目 标 值 〈 因 变量 块 ) 是 
c = y(N) (10-23) 
分 别 利用 式 (10-20) 和 式 (10-21) 中 的 训练 数据 集 和 测试 数据 集 ， 执 行 公式 (9-111) 的 因 
子 分 析 。 在 确定 了 最 优 的 因子 数 时 ， 就 能 估计 出 系统 的 阶 数 : 
he 


A= — 10-24 
n= 了 ( ) 


如 是 由 因子 分 析 得 到 的 最 优 因子 数 [10]。 利 用 PLSR 因 子 分 析 法 能 得 到 系统 最 小 实现 的 阶 数 [5]， 
即 一 个 系统 模型 总 是 可 控制 的 和 可 观察 的 〈 详 见 A.2.12 节 ) 。 在 标准 预测 误差 与 PLSR 的 因子 数 
的 图 上 选择 第 一 最 小 即 为 此 情形 。 在 最 优 的 因子 数 取 定 后 ， 取 N > 28， 可 以 由 数据 集 {z&( 间 ， 
y( 妇 } 得 到 一 个 新 的 数据 集 如 下 : 

最 后 数据 集 = (®,(N;f), y,(NsA)} (10-25) 
MATERO (N: fi) 和 y (N; A) 的 样本 数 不 必 一 定 要 和 生成 公式 (10-20) 中 集合 {Bwain(N)， 
(CD 和 公式 (10-21) 中 集合 {ea(N), yea( 和 )} 的 数目 一 样 ， 但 必须 是 N > 26。 参 数 向 量 的 
估计 值 也 可 以 使 用 9.5 节 的 预测 方法 1 来 获得 。 根 据 PLSNET-C ( 详 见 9.6 节 )， 利 用 式 (10-25) 
表示 的 最 后 数据 集 ，PLSR 得 到 权 值 装 载 向 量 {高 , W whol, BERTHS, bn …, Bio} 和 回归 
Ad ô, Oy, Dj}。 利 用 这 些 信息 ， 可 以 构成 下 面 的 矩阵 


WT =w] (10-26) 
Br = [Bb,b,,,b,,] (10-27) 
Ò” =[0,,0,,-0,,] (10-28) 


Hp ERr, BER, DER”, Ae = 2A, A (10-26), HK (10-27) 和 式 (10-28) 可 以 
得 出 最 优 的 PLSR 校 正 模型 (最 后 校正 系数 ) brisk, KRATA: 


8 = b pse =W (BW) Ò (10-29) 





PIO WAARAAN, alte fit 353 








因此 ， 参 数 向 量 估计 值 6 就 是 PLSR 校 正 模型 bpsr。 通 常 PLSR 校 正 模 型 也 用 来 预测 。 这 样 ， 最 
后 的 校正 模型 将 预测 系统 的 输出 (响应 ) {y(D}。 为 了 估计 已 建 参 数 模型 的 性 能 ， 如 式 (10-25) 
所 示 将 生成 另外 一 个 数据 集合 ， 它 利用 数据 集合 {u(D, y(D} 中 没有 用 过 的 部 分 生成 6= 和 psn， 即 : 


最 后 (用 来 测试 的 ) 数据 集 = Des (CN; MV pea (NÂ) (10-30) 
其 中 N > 2#。 利 用 名 ies N; A 和 式 (10-29)， 按 下 式 可 以 得 到 yes 的 估计 值 : 
Priest = Dries 8 = Db f PLSR ( 10-31) 


这 个 值 可 以 和 实际 输出 值 yes 进行 比较 。 
例 10.1 说 明 怎样 运用 PLSNET 进 行 参数 系统 辨识 。 实 际 离散 时 间 系 统 的 传递 函数 由 以 下 
二 阶 国 数 给 出 ， 


z-0.1 
z? -0.5999z +0.05 


其 中 采样 周期 7, = 22/1 000s, 万 = 2 (系统 的 实际 阶 数 ) 。 因 此 ， 实 际 的 参数 向 量 为 
67 = [-0.5999, 0.05, 1, - 0.1] (10-33) 


仿真 的 输入 /输出 经 验 数据 {w(b, y(k) HEMATLAB +} FHS FH (zero-mean) 单位 方差 高 斯 白 
噪声 函数 作为 输入 生成 ， 利 用 由 公式 (10-33) 得 到 04， 
的 参数 ， 用 MATLAB 函 数 lsim 生 成 输出 数据 。 04 

输入 和 输出 序列 都 有 1024 个 样本 ， 每 个 序列 的 前 
100 个 样本 用 来 生成 训练 数据 ， 如 式 (10-20) 所 示 ， 
其 后 的 100 个 样本 用 来 组 成 测试 数据 集 ， 如 式 〔10-21) 
所 示 ， 系 统 的 阶 数 设 为 x = 2。ARMA 数 据 和 矩阵 由 式 
(10-11) 给 出 。 利 用 训练 和 测试 数据 集 ， 由 直接 独立 
检验 因子 分 析 法 可 得 到 系统 的 阶 数 六 = 1 ( 见 图 10-2)， 
又 由 图 10-2 看 出 最 优 的 因子 数 h? = 2。 这 表明 开始 的 


H(z) = (10-32) 


So 
> b Ss 
D th 


> 


预测 的 标准 误差 (SEP) 
2 = 2 
— wa N 


0.05 
二 阶 系统 是 一 个 可 莘 化 系统 。 因 此 ， 传 递 函 数 中 存在 of y 4 4 
极 值 消去 或 零点 消去 。 实 际 上 ， 初 始 系统 的 极 值 点 PLS 因 子 /的 数目 
为 : 图 10-2 ”由 PLSR1 选 择 理想 的 PLSR 因 数 ， 反 
FB Blow a = [0.1, 0.4999] (10-34) 2, MAAR Ben = 1 (由 系统 
零点 为 的 最 小 实现 得 出 ) 
Foy 未 统 = [0.1] (10-35) 


因此 ， 在 0.1 点 处 极 值 和 零 可 以 消去 。 如 果 这 个 极 值 /零点 被 消去 ， 则 得 到 的 系统 是 一 个 不 可 简 
化 (可 控 和 可 观察 ) 系统 。 

为 了 求 得 系统 最 小 实现 的 参数 ， 最 后 的 数据 集 (系统 维 数 采用 六 = 1) 必须 首先 生成 ， 如 式 
(10-25)。 对 最 后 的 数据 集运 用 PLSNET-C， 经 过 3000 个 训练 回合 后 ， 计 算 PLS 的 权 值 装载 向 量 、 


装载 向 量 和 回归 系数 ， 即 { 雹 , 饭 , 总 }，h = 1,2。 用 于 PLSNET-C 的 学 习 率 参数 按 下 式 选取 : 
0.1 


Me = Wi (10-36a) 
Yy 
ye 
l, = H, = (0.05) 4, (10-36b) 


根据 集合 {高 , Bn D), 在 式 (10-26) 一 式 (10-28) H HRJ ARE, b, OMPAT LE RE, E 
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BY (最 小 实现 ) 系统 的 参数 向 量 由 下 式 给 出 ， 


1.0 (10-37) 


这 个 结果 是 由 式 (10-34) ~ (10-35) 得 来 。 因 此 ， 最 小 实现 系统 的 传递 函数 由 下 式 给 出 : 


a a, are, [0.4999 
8 = base =W (BW') -| | 


1 
H,,(2)=———— 10-38 
mw (2) = 9.4999 (10-38) 


#l| FAPLSNET-CA9 442 (0, Dn 3, } 做 一 个 简单 的 检测 ， 图 10-3 显 示 了 初始 〈 实 际 ) 系统 的 前 50 
次 系统 输出 样本 和 把 PLSNET-P 用 于 一 阶 系统 的 系统 响应 图 像 。 从 图 上 可 以 明显 看 出 两 类 响应 
本 质 上 是 一 致 的 。 结 果 相 同 是 由 于 它们 都 采用 了 式 (10-31) 给 出 的 方法 ， 也 就 是 说 ， 都 利用 
了 式 (10-37) 给 出 的 运算 参数 向 量 。 


实 线 : 实际 响应 
+: PLSNET-P 响 应 的 预测 





-30 5 10 15 20 25 30 35 40 45 50 
时 间 采 样 (T, = 2/1 000) 


图 10-3 实际 系统 (KRA) 的 输出 响应 与 运用 PLSNET-P 的 降 阶 (最 小 实现 ) 系统 ， 
它 的 参数 使 用 PLSNET-C 进 行 估计 (图 示 为 离散 样本 点 ) 
用 PLSNET-C 和 9.5 节 中 给 出 的 PLSR1 校 准 算法 比较 权 值 装载 向 量 、 装 载 向 量 和 回归 系数 ， 
会 得 到 令 人 有 趣 的 结果 。 用 于 PLSNET-C 的 三 个 向 量 由 下 式 给 出 : 
-0.4815 0.9431 
0.8764 03324| 


、 an -0.5331 0.8900 
Boi snev_c = [bi b lptsner-c = | 0.8471 0 4048 


. Ù, 1.1136 
UPLSNET-C = ô, ML SNET- g oosoo 


用 PLSR1 校 准 算法 的 三 个 向 量 由 下 式 给 出 ; 


Wai snev-c = [WW letsnet-c = | 


~ aoa -0.4854 0.8743 
Whi spi = [Wi W3 lisri = | 


0.8743 0.4854 


-0.5329 0.8743 
0.8479 0.4854 


、 站 1.1143 
UPLSRI 7 Ù, ise! 7 0.0483 


Bose =[B,, b; ]plsRi = | 
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对 比 数组 中 的 值 可 以 看 出 ， 两 种 方式 抽取 的 PLS 信 息 儿 乎 相同 。 


10.6 非 线性 系统 的 表示 法 


一 般 来 说 ， 任 何 系统 都 可 以 看 作 一 个 算 子 进行 两 个 空间 之 间 的 某 种 映射 [111， 图 10-4 从 概 
念 上 给 以 说 明 。 包 含 系统 定义 域 的 空间 通常 称 为 给 入 空间 U。 类 似 地 ， 包 含 系统 映射 结果 的 空 
间 称 为 给 出 空间 Y。 在 多 数 实际 应 用 中 ， 空 间 U 和 Y 是 向 量 空间 ， 分 别 是 中” 和 3" ' 的 子 集 。 
系统 的 输入 和 输出 都 可 以 定义 为 时 间 变量 的 函数 ， 这 样 的 系统 称 为 动态 系统 。 换 句 话说 ， 如 
图 10-4 所 示 的 动态 系统 在 时 刻 ! 接 收 到 一 个 输入 xD CU, 产 生 一 个 输出 FDCY。 在 许多 动态 系 
统 中 ， 输 出 不 仅 取决 于 当前 的 输入 变量 值 ， 而 且 依赖 于 系统 过 去 的 输入 和 输出 值 。 这 些 系统 
就 是 通常 说 的 有 记忆 的 系统 。 

在 动态 系统 学 习 的 有 关 学 科 中 ， 准 确 的 系统 
表示 法 是 一 个 非常 重要 的 问题 ， 从 本 质 上 说 ， 这 PO 
个 问题 就 是 利用 数学 工具 寻找 一 个 简便 的 方法 为 = er 
系统 建 模 。 模 型 的 性 能 可 以 从 不 同 的 方面 来 判定 ， WIA 动态 系统 的 简单 模型 
包括 准确 性 、 简 易 性 、 可 计算 性 和 现实 有 效 性 。 RT 
就 建立 准确 的 (用 数学 可 处 理 的 ) 模型 来 说 ， 它 本 身 是 一 个 非常 复杂 的 科学 问题 。 幸 运 的 是 ， 
在 实际 应 用 中 ， 我 们 在 建 模 时 很 少 对 系统 的 每 个 方面 都 考虑 ， 这 就 允许 我 们 建立 一 个 相对 简 
单 的 模型 ， 它 只 在 实际 应 用 的 方面 是 准确 的 。 

根据 向 量 空间 U 和 Y 的 映射 性 质 ， 系 统 可 以 在 广义 上 分 为 两 类 ， 线 性 和 非 线性 。 如 果 图 10-4 
中 的 映射 对 于 任意 的 4, BER Anu (1), u(i) CU 都 能 满足 下 式 : 

P{Au, (t) + Bu,(t)} = AP(u,(1)} + BP{u,(t)} (10-39) 
那么 系统 就 是 线性 的 。 反 之 ， 如 果 式 (10-39) 不 成 立 ， 系 统 就 是 非 线性 的 。 线 性 系统 理论 在 
许多 应 用 中 已 经 是 一 门 发 展 很 完善 的 学 科 。 它 主要 基于 线性 代数 、 复 变 理论 、 线 性 算 子 理论 
和 数学 以 及 科学 技术 的 其 他 一 些 领域 。 但 是 ， 非 线性 系统 的 表示 、 设 计 、 辩 识 和 控制 却 是 很 
具 挑 战 性 的 工作 ， 还 需要 进一步 研究 。 在 本 节 中 ， 我 们 提出 两 种 常用 的 非 线 性 动态 系统 的 表 
示 法 。 
10.6.1 非 线性 输入 -状态 -输出 表示 法 

很 多 类 型 的 非 线性 动态 系统 可 由 下 式 表达 : 

SO L alo) = fOD] (10-40) 
y(t) = g{x(t), u(t)] (10-41) 
其 中 

状态 向 量 x) = [4,902 Aa (OD) ER 

输入 向 量 WD) = [u (1), (y (OY ER 

输出 向 量 XD = [GD (Ol ER” 

1= 连续 时 间 变 量 

ARSO MeO) 表示 由 三 ROA R Ag :9 一 的 ”定义 的 非 线性 映射 。 如 果 函 数 





os 
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8s[Exz(O0，x(D] 中 明确 地 包含 KWD， 我 们 说 这 个 系统 的 输入 和 输出 是 直接 连接 。 但 对 于 大 多 数 系 统 
来 说 不 是 直接 连接 ， 通 常 函数 g(: ) 假设 只 是 一 个 系统 的 状态 函数 。 

式 (10-40) 和 式 (10-41) 通常 认定 为 非 线 系统 的 输入 一 状态 -输出 (input-state-output， 
ISO) 模型 。 很 明显 , 式 (10-40) 和 式 (10-41) 中 的 表达 式 可 用 来 描述 连续 动态 系统 。 如 果 
是 离散 时 间 系 统 ， 则 式 (10-40) 中 的 微分 方程 式 需要 转换 为 对 应 的 差分 方程 式 。 因 此 ， 在 一 
个 离散 时 间 系 统 中 ，ISO 表 示 法 的 形式 如 下 式 : 

i x(k +1) = f[x(k),u(k)] (10-42a) 

y(k) = g[x(k),u(k)] (10-42b) 

AOR SY BE) 和 g(:) 是 线性 的 ， 式 (10-42a) 和 式 (10-42b) 可 化 简 变换 为 线性 系统 
ISO 表示 的 通常 形式 如 下 : 


连续 型 : 
X(t) = A()x(t) + Bult) (10-43) 
y(t) = C(x) + Dult) (10-44) 

离散 型 : 
x(k +1) = A(A)x(k) + B(k)u(k) (10-45) 
yk) = C(k)x(k) + D(k)utk) (10-46) 


Hp, AER”, BER", CER", DERr*”"。 当 时 间 是 常量 时 ， 系 统 变 为 最 简单 的 形式 ，Ah、 
B、C 和 DP 是 常 实数 矩阵 ( 详 见 A.2.12 节 )。 


10.6.2 非 线 性 ARMA 


以 ISO 形式 建立 非 线性 系统 表示 需要 了 解 关 于 系统 内 部 运行 过 程 的 充足 知识 。 显 而 易 见 ， 
为 了 说 明 式 (10-42a) 和 式 (10-42b) 中 的 离散 时 间 状 态 表 示 必 须 了 解 系统 的 状态 。 虽 然 多 
数 情况 下 这 些 状态 是 现成 的 ， 但 仅 根据 系统 本 身 的 输入 输出 建立 一 个 非 线性 系统 表示 也 是 非 
常 有 用 的 。Leontaritis 和 Billings [12] 介绍 了 另外 一 种 方法 来 建立 非 线性 动态 系统 模型 ， 外 
输入 非 线 性 自 回归 滑动 平均 (NARMAX) 模型 。NARMAX 模 型 可 以 认为 是 非常 成 功 的 
ARMAX 模 型 在 非 线性 动态 系统 情形 下 的 一 个 自然 扩展 。 为 了 站 明 这 一 点 ， 考 虑 一 个 线性 动态 
系统 的 ARMAX 模 型 如 下 : 


y(k) = 5 8, y(k-i)+ > Biulk ~i)+ > Oelk — i) + e(k) (10-47) 


FE y(DER?™') UHER” Fle(KER?’*'4> HUE BE FH BEE BS BCA ad PTY AE AN 

向 量 和 测量 〈 或 近似 ) 误差 向 量 。 同 样 有 60,; CR’, 0, ER” 和 6。; ER”, ARE ABA 

噪声 ， 则 ARMAX 模 型 就 简化 为 在 10.3 节 和 10.4 节 中 所 讨论 的 比较 简单 的 ARMA 模 型 。 

在 适当 的 假定 下 ， 一 大 类 非 线性 系统 都 可 以 用 下 面 的 非 线性 离散 时 间 差 分 方程 表示 [12]: 
yk) = fly(k ~ 1), WK - n, Julk- 1), u(k - n, ), 
e(k -1),---,e(k -—n,)] + e(k) 

Bethy Dems! HER” 'Fre(HER’* FN (10-47) 中 意义 一 样 ，f(:) 是 一 个 非 线性 映射 ， 

定义 为 fi RE _, Spot | K (10-48) 中 的 矩阵 方程 可 以 分 解 为 关于 标量 p 的 方程 

aT: 


(10-48) 
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yk) = fiy lk =D Yk) yak- 1), k= n,), =, Y= Doo y, (k =n, ), 
u(k -1),---,u,(k-n,), u (k-11), nu (kan, ,kD),, Unk —n,), 
e(k-1), +, e (k-n,) (kK - 1), ++, €(k — 1, ), = e,(k-1),-,e,(k-n,)] 
+e,(k) 


其 中 i = 1, 2, …, p。 一 个 非常 重要 的 特例 是 ， 当 系统 的 输出 假定 为 没有 误差 时 ，NARMAX 模 
型 就 简化 为 简单 的 外 输入 非 线性 自 回 归 (NARX) 模型 ， 可 以 写成 如 下 形式 ; 


(10-49 ) 


y(k) = fly(k ~ 1), y(k - 2), yk — n,), uk — 1D)uk ~ 2),---, uk ~ n,)] + e(k) (10-50) 
或 标量 形式 如 下 : 
YAK) = Fk- Dyk) Yak- Dyes (Ky) yk Dyes 
y,(k 一 ny), uy (k -1),-++,4, (k-n, ) uk oD, (k —1,)00 a (kK =D, (10-51) 


u„(k-n,)]+e;(k) 


以 后 可 以 看 到 ，NARMAX 模 型 的 NARX 形 式 对 于 非 线 性 系统 辨识 是 非常 重要 的 。 

式 (10-51) 中 给 出 的 NARX 形 式 是 非常 常见 的 ， 它 包含 的 非 线性 动态 系统 范围 很 广 。 然 
而 ， 在 实际 应 用 中 ， 非 线性 函数 j(. ) 几 乎 是 不 可 知 的， 因此 ， 在 系统 辨识 过 程 中 需要 建立 它 
的 近似 式 。 解 决 这 个 问题 的 一 种 方法 就 是 根据 著名 的 斯 通 一 魏 尔 斯 特 拉 斯 (Stone-Weierstrass) 
定理 [13]: 任何 函数 都 能 用 多 项 式 以 任意 要 求 的 精度 逼近 。 把 式 (10-51) 展开 成 /次 多 项 式 ， 
就 得 到 下 式 : 


y,(k) = 08? + dos (D+ > DO CO, (k) 


i=l nsh 
a on 
$5- 


n 
hel n= 下 一 中 


at? ,x, (x, (bx (0D+e( (10-52) 
其 中 = pn, + mn,, 
x(k) = yk ,x (k= y (k - 2), -Xp (K) = y (ky) 
和 
X pn, (K) = Uy (k, — D, X pn, (k) = u,(k — 2), -x (kK) =u, (k-n) 
式 (10-52) 中 的 多 项 式 扩展 把 式 (10-51) 中 确定 未 知 函数 的 问题 转变 成 一 个 参数 估计 的 
间 题 。 为 了 说 明 以 上 过 程 ， 举 例如 下 : 
例 10.2 按照 式 (10-50)， 一 个 单 输入 单 输出 系统 的 NARX 模 型 表示 为 下 式 : 
y(k) = fiy(k—1), y(k—2), u(k—1)] (10-53) 
我 们 为 式 (10-53) 中 的 非 线 性 函数 建立 一 个 近似 多 项 表达 式 ， 假 设 它 能 用 2 次 多 项 式 准 
HE. BA, RRA (10-52) 我 们 能 得 到 下 式 : 
y(k) = 8, +0yk -D+0 yk-2)+0uk—1) 
+04y (Kk—1)+0syk- Dy(k - 2) + 0 yk- Duk - 1) (10-54) 
+0,y° (k — 2) + Oy(k ~ 2)u(k - 1) + O,u? (k -1) 


从 例 10-2 的 简单 非 线 性 系统 能 看 到 NARX 模 型 存在 一 个 明显 的 问题 。 由 于 非 线 性 函数 /( ) 





> 
oo 





的 结构 是 未 知 的 ， 在 分 析 时 多 项 式 的 所 有 项 都 需要 包括 。 一 般 来 说 ， 这 意味 着 对 于 一 个 共有 p 
个 输出 和 m 个 输入 且 输 出 和 输入 的 最 大 延迟 数 分 别 为 n, Flin, ， 它 的 /次 非 线 性 多 项 式 逼 近 ， 我 
们 需要 进行 估计 的 总 项 数 为 


i 
N=pllsnsnn-D+= +n- -2(n-1D1= PY A) (10-55) 


TEJA (10-55) 中 , n= mn, + pn,。 举 例 来 说 ， 由 nn =n, = 4 给 出 的 最 大 延迟 的 单 输入 单 输出 系 
统 的 4 次 多 项 式 逼 近 需 要 估计 


4 /8 
N= i | =2081 10-56 
2 (10-56) 


个 系数 。 而 且 ， 除 去 高 阶 非 线性 系统 ， 大 多 数 系 数 的 值 都 非常 小 ， 也 就 是 说 式 (10-52) 中 大 
多 数 项 是 多 余 的 ， 应 该 删除 。 如 果 只 从 系统 辨识 角度 看 ， 系 数 的 数量 多 不 会 造成 难题 。 大 多 
数 情况 下 ， 辨 识 过 程 是 非 线 性 设计 和 自 适 应 控制 的 第 一 个 步骤 。 但 从 实用 的 角度 看 ， 系 数 的 
数量 多 对 系统 的 表示 会 造成 非常 大 的 困难 。 对 这 个 问题 已 经 提出 几 种 解决 方案 ， 这 里 只 讨论 
其 中 的 两 种 。 


应 用 正 交 分 解 的 线性 回归 
对 式 (10-52) 仔细 检验 后 ， 可 以 看 出 它 还 能 写 为 更 简单 的 形式 如 下 : 
x (KO = y,(k) (10-57) 
其 中 
x(k) = [1, x(k), my x(k), x7 (k), a) x7 (k), xik) x (10-58) 
和 
了 
o” = 0 (10-59) 
i i 
设 M 为 连续 的 时 间 间 隔 ， 方 程 组 能 写 为 如 下 形式 : 
[x(k), x(k -1),---, x(k- M) O? =Ly,(k), yik- 1), yk — M) (10-60) 
等 式 (10-60) 能 写 为 更 简约 的 形式 如 下 : 
Pe =Y, (10-61) 


SEPPER TE’ OVER LV ERT 。AN 是 每 个 输出 要 估计 的 系统 参数 总 数 ， 由 下 式 给 出 : 
d n 
N” = if | (10-62) 


n= mn, + pn, (10-63) 


因此 ， 关 于 NARX 模 型 多 项 式 扩展 中 的 参数 估计 问题 就 转变 为 式 (10-61) 中 的 线性 回归 问题 。 
在 文献 [14] 中 ，Billings 等 验证 了 一 种 可 靠 的 回归 技术 ， 它 能 得 到 关于 NARX 模 型 多 项 式 近 似 
的 参数 。 参 关 文 献 L15j 中 给 出 了 一 种 稍 加 改动 的 算法 ， 它 运用 了 投影 。 文 献 [16] 中 Chen 等 人 给 
出 了 一 篇 优秀 的 论文 ， 对 NARX 非 线性 系统 建 模 的 正 交 最 小 二 乘法 和 应 用 进行 了 全 面 的 调查 
研究 。 


和 
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神经 网 络 方法 

把 神经 网 络 用 于 建立 NARX 模 型 的 非 线性 映射 近似 是 多 项 式 扩展 中 参数 估计 的 另 一 可 选 
方案 。 任 何 能 模拟 非 线 性 映射 近似 的 神经 网 络 都 可 用 来 学 习 函 数 A(. )。 在 参考 文献 [11，17， 
18] 中 论证 了 多 层 感 知 器 网 络 和 递归 神经 网 络 都 能 完成 这 个 任务 ， 在 参考 文献 [19, 20] 中 使 用 径 
问 基 国 数 神经 网 络 也 达到 了 这 一 目的 。 

作为 最 后 的 定论 ，Narendra 和 Parthasarathy{11] 证 明 ， 如 果 非 线性 系统 中 存在 已 知 数据 ， 
非 线 系统 建 模 最 好 是 组 合 NARMAX 和 ARMAX。 在 参考 文献 [11] 中 特别 指出 ， 一 个 非 线 性 系 
统 能 辨识 为 下 面 模型 之 一 。 

模型 1. 系统 的 输出 非 线 性 依赖 于 以 前 的 心 个 输入 值 ， 线 性 依赖 于 以 前 的 心 个 输出 值 ， 它 
可 写 为 如 下 形式 ， 


y(k) = Dain ~i)+ f [u(k-1), u(k=1), ++, u(k — 1, )1+ e(k) (10-64) 


Ht, a ER fee ame 
模型 2. 系统 的 输出 线性 依赖 于 nn, 个 以 前 的 输入 值 、 非 线性 依赖 于 n, 个 以 前 的 输出 值 ， 它 
可 写 为 如 下 形式 : 
y(k) = fl yk D, yk -2),., WR - ny + Š Buk ~i)+e(k) (10-65) 


其 中 B, ER" FEA FR SRM, 
模型 3. 系统 的 输出 非 线性 依赖 于 以 前 的 输入 和 输出 值 ， 但 非 线性 映射 是 可 分 离 的 ， 它 可 
写 为 如 下 形式 : 
yk) = FAY - D, yk- 2),., yk -nN 
+f [u(k 一 1),u(k 一 2), ,u(k =h, )j+ e(k) ( 10-66) 


其 中 f. g -> Re! 并 且 f, rere — Ker! ` 


模型 4. 系统 的 输出 与 以 前 的 输入 和 输出 值 之 间 的 依赖 性 用 不 可 分 离 的 非 线性 形式 表示 。 
因此 ， 系 统 的 输出 可 写 为 如 下 形式 : 


JE) = fly(k — Db,.…, y(k —n,), wk —1), +++, uk ~ 1, )]} + e(k) (10-67) 


其 中 peer Re 。 很 明显 ， 模 型 4 是 以 前 章节 中 讨论 的 NARX 模 型 的 常用 情形 ， 模 型 
1 一 3 都 来 源 于 模型 4， 都 是 非 线性 函数 f(. ) 的 一 种 特殊 形式 。 


10.7” 非 线性 动态 系统 的 辨识 和 控制 


辨识 和 控制 是 数学 系统 理论 的 两 大 基础 工作 。 对 于 线性 系统 来 说 ， 已 经 有 大 量 的 数学 工 
具 可 供应 用 ， 然 而 对 于 非 线性 系统 来 说 ， 辩 识 和 控制 仍 很 困难 。 由 于 缺乏 通用 的 理论 来 建立 
具有 可 控 性 、 可 观察 性 和 稳定 性 等 性 质 的 非 线性 系统 ， 迫 使 我 们 逐个 地 分 析 研 究 非 线 性 系统 
辨识 和 控制 的 基本 事例 。 最 近 ， 应 用 神经 网 络 来 处 理 非 线性 系统 的 辨识 和 控制 已 经 取得 了 可 
喜 的 成 果 [11, 17-21] 。 从 实践 和 理论 两 方面 看 ， 神 经 控制 将 是 神经 网 络 应 用 方向 上 一 个 很 
有 发 展 前 景 的 领域 。 
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在 本 节 中 ， 我 们 给 出 应 用 神经 网 络 进行 非 线性 系统 辨识 和 控制 的 一 些 简 单方 法 。 首 先 我 
们 讨论 系统 辨识 的 问题 ， 然 后 我 们 讨论 一 些 非 线 性 控制 设计 的 方法 。 为 了 讨论 起 来 简单 ， 我 
们 只 针对 单 输入 单 输出 (SISO) 系统 。 但 这 些 方法 都 可 以 直接 扩展 应 用 于 多 输入 多 输出 
(MIMO) 系统 。 


10.7.1 非 线性 系统 的 辨识 


如 图 10-5 所 示 为 非 线性 系统 辨识 的 一 般 问 题 。 辨 识 模型 的 参数 是 自 适应 地 进行 估计 ， 所 
以 实际 系统 输出 和 模型 的 输出 之 间 的 差别 是 最 小 的 。 理 想 状 态 下 ， 即 使 没有 动态 系统 的 先 验 
知识 ， 这 样 的 辨识 过 程 也 能 得 到 非 线 性 系统 的 精确 模型 。 实 质 上 ， 在 辨识 过 程 中 模型 的 结构 
和 参数 都 在 进行 调整 。 但 即使 能 这 样 做 ， 产生 的 模型 也 仅 能 对 辨识 过 程 中 用 到 的 输入 序列 有 
效 ， 如 果 在 识别 过 程 中 不 用 一 个 特殊 的 输入 序列 ， 系 统 和 它 的 模型 就 不 一 定 能 达到 期 望 的 精 
确 度 的 结果 。 






识别 模型 


图 10-5 ”系统 辨识 过 程 的 一 般 模型 


一 种 用 于 非 线 性 系统 辨识 的 最 有 用 的 方法 基于 NARMAX 建 模 。 图 10-6a 和 10-6b 给 出 了 采 
用 NARMAX 建 模 方法 来 实现 图 10-5 所 示 识 别 方案 的 两 种 不 同 实现 。 从 图 上 可 以 看 出 ， 两 种 配 
置 完 全 相似 。 事 实 上 ， 非 线性 识别 系统 的 结构 也 完全 相同 ， 不 同 点 仅 是 系统 和 辨识 器 之 间 的 
连接 。 图 10-6a 的 结构 是 通常 所 说 的 并 行 配置 ， 图 10-6b 的 结构 称 为 并 行 一 囊 行 配置 。 

并 行 配置 

图 10-6a 和 图 10-6b 所 示 的 辨识 模型 中 都 有 一 个 重要 的 设 定 是 : 对 辨识 过 程 所 用 的 所 有 输入 
序列 ， 非 线性 系统 都 是 有 界 输入 有 界 输出 (BIBO) 稳定 的 。 在 图 10-6a 的 并 行 配置 中 把 辨识 
器 的 过 去 值 作为 NARMAX 模 型 的 输出 延迟 ， 参 看 式 〈10-48) ， 并 行 配置 应 用 NARMAX 模 型 
的 最 常用 形式 。 由 于 每 个 输出 样本 都 有 一 个 预测 误差 反馈 给 NARMAX 模 型 ， 即 使 系统 是 
BIBO 稳 定 的， 也 不 能 保证 辨识 模型 是 稳定 的 。 使 并 行 辨识 过 程 具有 稳定 性 的 确切 条 件 尚 未 可 
知 ， 即 使 线性 系统 也 是 这 样 [11]， 所 以 并 行 配置 在 实践 中 很 少 应 用 。 

HAT — SARE 

不 同 于 并 行 配置 模型 ， 在 并 行 - 串 行 配置 模型 中 ， 实 际 系统 输出 的 过 去 值 在 辨识 过 程 中 应 
用 。 由 于 系统 设 定 为 BIBO 稳 定 的 ， 所 以 ， 辨 识 过 程 中 用 到 的 所 有 信号 也 是 有 界 的 。 因 此 ， 用 
实际 输出 来 消去 计算 误差 ， 则 NARMAX 模 型 就 简化 为 更 易于 控制 的 NARX 模 型 ( 见 前 一 节 讨 
论 ) 。 基 于 以 上 的 考虑 ， 把 并 行 - 串 行 配置 作为 非 线 性 系统 辨识 的 可 选 方式 。 

图 10-6b 中 并 行 一 串 行 配 置 辨识 器 的 最 重要 部 分 是 非 线 性 上 映射。 对 于 SISO 系 统 ， 由 下 式 给 
出 映射 方式 : 

yk) = fly(k— De, y(k-n,) uk - DD, uk—n,)] (10-68) 
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由 于 神经 网 络 结 构 的 全 局 逼近 的 性 质 ， 在 实现 式 (10-68) 的 映射 时 ， 主 要 选择 神经 网 络 。 不 
同 的 网 络 结 构 都 可 用 来 处 理 式 (10-68) 的 映射 [11-15, 18-20]。 选 择 哪 一 类 型 的 神经 网 络 主要 
决定 于 辨识 同 题 的 性 质 。 在 此 ， 我 们 只 讨论 两 类 最 流行 的 网 络 结 构 ， 多 层 感知 器 网 络 (MLP 
NN) 和 径 向 基 神 经 网 络 (RBF NN), 


yp(k) 






ei(D=yp(D -S(O 
u(k) 


a) 


e;(k) = p(k) - Fp (k) 
u(k) 
O 


NARX 模型 


x(k) = {yok 1), =, Yolk- n), u{k ~ Dy eka 
b) 


图 10-6 a) 系统 辨识 的 并 行 配置 ，b) 系统 辨识 的 并 行 一 串 行 配置 





362 PRD APR GA MA 








应 用 MLP NN 辨识 非 线 性 系统 

图 10-7 给 出 了 应 用 MLPNN 逼 近 并 行 - 串 行 NARX 辨 识 模型 中 的 非 线性 映射 。 用 于 网 络 训 
练 的 学 习 算法 是 通用 的 反 向 传播 。 用 于 调整 网 络 权 值 的 是 两 种 不 同 的 常用 方法 ， 第 一 种 称 为 
模式 学 习 [18]， 按 照 这 种 方法 ， 网 络 的 权 值 随 每 一 次 的 输入 而 更 新 。 第 二 种 方法 也 是 一 种 模式 
学 习 的 可 选 方案 ， 称 批量 学 习 。 采 用 这 种 方法 时 ， 网 络 要 得 到 一 系列 的 输入 后 才 更 新 网 络 权 
值 。 在 第 3 章 中 ( 详 见 3.3.4 节 ) 讨论 了 这 两 种 方法 以 及 它们 的 折 中 方法 。 关 于 这 两 种 学 习 方 法 
的 更 详细 讨论 参考 文献 [18, 21]。 从 实际 应 用 看 ， 仿 真 模拟 表明 这 两 种 学 习 方法 在 学 习 率 参数 
很 小 的 情况 下 ， 它 们 的 性 能 是 不 相 上 下 的 [181。 但 随 着 学 习 率 参数 的 增加 ， 批 量 学 习 表现 为 收 
敛 不 -一致 ， 而 模式 学 习 的 收敛 保持 相对 一 致 。 运 用 MLP NN 来 模拟 式 (10-68) 中 的 映射 关系 
的 最 大 优点 是 它 的 简便 性 和 适 于 在 线 应 用 。 另 一 方面 ， 反 向 传播 学 习 带 来 了 辨识 过 程 中 收敛 
速度 的 问题 ， 一 般 来 说 ， 第 3 章 中 提 到 的 任何 一 种 加 速 反 向 传播 学 习 的 方法 都 能 增加 它 的 收敛 
速度 。 但 通常 是 以 增加 学 习 过 程 中 的 计算 复杂 度 为 代价 的 。 
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10-7 运用 MLP NN 实 现 并 行 - 串 行 NARX 系 统 辨识 


例 10.3 ”假设 一 个 SISO 非 线性 系统 的 系统 辨识 问题 由 下 面 的 ISO 表达 式 给 出 : 
状态 方程 : 





-20 (10-69) 
WE ed 
x(k +1) = tanh{x,(k)+ [1+ x, (K)Ju(k)} (10-70) 


输出 方程 : 
y(k) = 2x,(k) (10-71) 
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用 于 图 10-7 中 给 出 的 并 行 一 串 行 配置 来 完成 辨识 ，NARX 模 型 由 下 式 给 出 : 
yk) = flulk ~1),---,u(k - 4), yk - 1), KE-4)] (10-72) 


建立 的 多 层 感 知 器 网 络 (MLP NN) 有 两 个 隐藏 层 ， 每 层 有 10 个 神经 元 。 在 辨识 过 程 中 ， 区 
间 [ 一 0.5, 0.5] 中 均匀 分 布 的 噪声 序列 作为 系统 的 输入 。 用 反 向 传播 作为 训练 神经 网 络 的 辨识 
器 。 图 10-8a、b 给 出 了 用 方 波形 作为 输入 时 测试 系统 和 NARX 模 型 的 输出 图 像 。 图 10-8a 中 方 
波 输入 的 峰值 是 0.2， 从 图 可 以 看 出 ，NARX 模 型 准确 地 模拟 了 非 线性 系统 的 表现 ， 这 种 结果 
也 是 意料 之 中 的 ， 因 为 波形 的 幅度 在 训练 网 络 的 随机 噪声 范围 之 内 。 图 10-8b 显 示 了 当 方 波峰 
值 为 2 时 ， 系 统 和 NARX 模 型 的 输出 图 像 。 从 图 上 可 以 看 出 ， 实 际 非 线性 系统 与 模型 的 输出 之 
间 有 很 大 不 同 。 这 是 因为 输入 的 波形 幅度 超出 了 建立 NARX 模 型 时 的 输入 模式 范围 。 因 此 ， lag 
在 非 线性 系统 辨识 过 程 中 ， 模 型 只 表现 出 系统 局 部 的 属性 。 一 般 来 说 ， 当 超出 了 建 模 时 的 输 
和 人 范围 时 ， 网 络 的 精确 度 是 不 可 信赖 的 。 
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图 10-8 a) 例 10.2 系 统 辨 识 过 程 的 仿真 ， 方 波 输入 峰值 为 0.2 时 的 响应 ，b) 方 波 输入 峰值 为 2 时 的 响应 
应 用 RBF NN 辨识 非 线 性 系统 


图 10-9 为 运用 RBF NN 进行 非 线 性 系统 辨识 过 程 的 描述 。 从 图 上 可 以 看 出 ， 辨 识 器 的 结构 
和 图 10-7 中 MLP NN 的 结构 非常 相似 。 可 用 几 种 不 同 的 方法 训练 图 10-9 中 的 RBF NN， 当 在 线 
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辨识 是 最 看 重 的 性 能 时 ， 可 用 第 3 章 ( 详 见 3.6.2 节 ) 中 介绍 的 随机 梯度 方法 来 生成 RBF NN 的 
三 个 参数 集 : 权 值 、 中 心 和 扩展 参数 集 。 这 样 虽然 很 直接 ， 但 这 种 方法 不 能 发 挥 RBF NN 的 最 
好 特性 ， 即 线性 “ 非 参数 ”结构 。 在 3.6.1 节 说 明了 一 旦 网 络 的 中 心 和 扩展 参数 选 定 ， 网 络 的 
权 值 就 可 作为 一 个 线性 回归 问题 的 解 ， 也 就 是 用 “封闭 的 形式 ”。 而 且 ， 选 择 该 网 络 的 中 心 的 
最 好 方式 是 正 交 最 小 二 乘 (OLS) 法 ( 详 见 3.6.3 节 )， 这 样 能 使 RBF NN 的 辨识 器 相对 较 小 。 
不 使 用 随机 梯度 方法 的 代价 是 既 不 是 固定 中 心 的 方法 ， 也 没有 适 于 在 线 辨识 的 OLS 回 归 法 。 
另外 ， 这 些 方法 的 计算 复杂 度 要 比 随机 梯度 法 高 出 许多 。 









非 线性 系统 






g(x- eill, 0) 
TDO 
Ss 
ERO 
<x 
Q 


图 10-9 运用 RBF NN 实现 并 行 一 串 行 NARX 系 统 


例 10.4 ”假定 动态 系统 和 例 10.3 中 的 相同 。 现 在 使 用 RBF NN 来 模拟 NARX 辨 识 器 中 的 非 
线性 映射 。 图 10-10a 和 图 10-10b 给 出 了 应 用 RBF NN 时 系统 辨识 过 程 的 结果 ， 其 中 RBF NN 的 
隐藏 层 有 30 个 神经 元 ， 使 用 高 斯 径 向 基 沪 数 ， 扩 展 参 数 设 为 1!。 网 络 用 OLS 前 向 回归 方式 训练 
( 详 见 3.6.3 节 )， 从 图 10-10a 可 以 看 出 NARX 模 型 在 方 波 的 峰值 是 0.2 时 ， 可 以 有 效 地 预测 出 非 
线性 系统 的 输出 ， 从 图 10-10b 能 看 出 在 输入 方 波 峰值 为 2 时 ， 应 用 RBF NN 的 NARX 模 型 不 能 
模拟 非 线性 系统 的 过 程 。 虽 然 这 也 能 用 例 10.3 的 原因 来 解释 ， 但 我 们 看 到 这 两 个 网 络 操作 的 
方式 是 完全 不 同 的 。 在 例 10.3 中 的 MLP NN 达到 了 饱和 ， 而 用 RBF NN 时 ， 当 输入 数量 为 2 时 ， 
网 络 只 产生 0 输出 ， 因 为 这 超出 了 RBF NN 的 映射 区 域 。 

最 后 注意 一 点 ， 用 于 非 线 性 系统 辨识 的 形式 与 第 10.6 节 描述 的 模型 4 相对 应 ， 这 是 NARX 
模型 常用 的 形式 ， 绝 大 多 数 非 线性 动态 系统 都 是 用 这 种 形式 来 建 模 。 然 而 ， 许 多 实例 又 能 充 
分 地 表明 ， 有 时 用 NARX 模 型 中 较 简 单 的 形式 来 构建 非 线 性 动态 系统 的 模型 是 正确 的 。 
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图 10-10 a) 例 10.3 系 统 辨识 过 程 的 仿真 。 方 波 输入 峰值 为 0.2 时 的 响应 ，b) 方 波 输入 峰值 为 2 时 的 响应 
10.7.2 非 线性 控制 


非 线性 系统 控制 的 主要 目的 是 把 动态 系统 的 输出 维持 在 特定 的 界限 内 。 我 们 来 看 图 10-11 
描述 的 情况 ， 非 线性 系统 有 外 部 输入 r(?)。 假 设 系统 的 期 望 输 出 是 知道 的 ， 由 时 间 函 数 yj (1) 给 
出 ， 那 么 非 线 性 控制 系统 的 目标 就 是 : 生成 它 的 输入 信号 AD ， 使 系统 的 实际 输出 yw (D 和 期 户 
输出 xw(D 的 差别 保持 在 一 个 特定 的 界限 。 根 据 期 望 输出 的 性 质 ， 我 们 把 控制 问题 分 为 两 类 ; 

1. 如 果 ys(D) 是 常数 ， 控 制 同 题 就 是 通常 说 的 规范 问题 。 

2. 如 果 yu(?) 是 非常 数 的 时 间 函 数 ， 控 制 问题 就 指 跟踪 问题 。 

在 多 数 情况 下 ， 动 态 系统 预先 是 未 知 的 ， 控 






e(t) 





制 器 的 设计 必须 采用 自 适应 的 方式 。 控 制 算法 必 g 
须 利 用 非 线性 系统 的 输入 和 输出 ， 根 据 它们 的 变 。 “@ aO 
化 来 改变 控制 器 和 输入 信号 xD 的 内 部 参数 ， 这 样 
才能 实现 控制 的 目的 。 

自 和 过 应 和 参考 控制 模型 (Model reference 
adaptive control, MRAC) 

对 图 10-11 所 示 的 自 适 应 控制 系统 ， 假 定 非 线性 "PO 
系统 的 期 望 输出 是 已 知 的 。 通 常 被 控 的 非 线性 系统 图 10-11 一 般 的 非 线性 控制 问题 
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的 期 望 输出 指定 一 个 参考 模型 。 参 考 模型 的 用 途 由 图 10-12 说 明 。 这 个 模型 是 一 个 已 知 的 动态 系统 ， 
对 给 定 的 输入 信号 AD 产生 一 个 期 望 的 输出 。 控 制 设 计 的 目的 就 是 对 于 给 定 的 输入 把 参考 模型 和 
非 线 性 系统 的 输出 之 间 的 差别 最 小 化 。 通 常 参 萎 模型 既 可 选择 线性 的 ， 也 可 选择 非 线性 的 。 但 从 
控制 器 设计 的 角度 看 ， 采 用 线性 模型 有 明显 的 好 处 ， 因 为 这 样 能 利用 线性 系统 理论 中 有 效 的 工具 。 


图 10-12 MRAC#HE RY 






r(Q) 
O 


直接 和 间接 控制 

习惯 上 ， 动 态 系统 自 适 应 控制 使 用 两 种 不 同 的 方式 : 直接 和 间接 控制 。 图 10-12 显 示 了 运 
用 直接 控制 的 一 个 系统 。 根 据 系 统 实际 输出 和 期 望 输出 的 差别 ， 用 直接 的 方式 调整 控制 器 自 
身 的 参数 。 另 一 方面 ， 在 间接 控制 中 ， 系 统 实际 输出 和 期 望 输出 的 差别 在 系统 的 辨识 过 程 中 
运用 。 控 制 器 的 设计 是 以 在 辨识 过 程 中 建立 的 系统 模型 为 基础 。 图 10-13 给 出 了 一 个 间接 控制 
的 系统 的 框图 。 在 开始 时 ， 图 10-12 中 的 直接 自 适 应 控制 器 结构 看 起 来 更 吸引 人 ， 因 为 在 这 个 
结构 中 不 存在 系统 辨识 过 程 。 但 是 ， 不 存在 基于 输入 r(f) 和 输出 误差 e.(1) 的 控制 器 参数 调整 方 
法 。 因 为 基于 误差 输出 和 控制 器 输出 的 动态 系统 是 未 知 的 。 而 如 果 使 用 间接 控制 ， 非 线性 系 
统 和 参考 模型 的 误差 就 能 通过 已 知 的 动态 系统 模型 反 向 传播 ， 并 更 新 控制 器 的 参数 。 


识别 模型 
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图 10-13 ”间接 自 适应 控制 方式 的 框图 


直接 和 间接 控制 在 线性 系统 中 运用 非常 成 功 , 关于 这 两 种 方法 的 详细 叙述 见 参考 文献 [22]。 
辨识 模型 的 结构 和 控制 器 的 设计 本 质 上 是 一 样 的 ， 两 者 最 大 的 区 别 是 辨识 模型 中 的 线性 增益 
在 控制 器 设计 中 由 非 线 神经 网 络 映射 代替 。 

神经 网 络 进行 间接 控制 

正如 以 前 提 到 的 ， 非 线性 系统 的 直接 自 适 应 控制 非常 难 实 现 ， 目 前 ， 对 于 直接 自 适应 控 
制 还 没有 有 效 的 方法 [11]。 用 于 非 线 性 系统 控制 的 大 多 数 神经 网 络 训练 算法 使 用 误差 信号 的 反 
向 传播 ， 误 差 信号 能 反映 出 实际 系统 和 期 望 系统 的 响应 差 值 。 当 前 ， 对 于 未 知 的 非 线性 动态 
系统 ， 还 没有 通用 的 理论 支持 误差 信号 的 反 向 传播 。 在 这 些 理 论 出 现 之 前 ， 用 于 非 线性 系统 
自 适应 控制 的 主要 方法 还 是 间接 控制 。 
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间接 控制 的 第 一 步 就 是 非 线 性 系统 辨识 。 一 个 常用 的 方法 是 把 非 线性 系统 辨识 为 第 10.6 节 
中 描述 的 四 种 非 线 性 系统 模型 之 --。 一 旦 辨识 模型 能 足够 准确 地 模拟 非 线 性 系统 ， 它 就 能 在 
MRAC 控 制 器 中 用 来 训练 过 程 。 因 为 动态 神经 网 络 系 统 辨 识 模型 已 知 ， 误 差 信号 能 反 向 传播 
和 调整 神经 网 络 控制 器 的 权 值 。 图 10-14 给 出 --- 个 间接 神经 网 络 控制 器 的 框图 。 

图 10-14 中 所 示 的 间接 控制 使 用 的 神经 网 络 常用 类 型 是 MLP NN 和 RBF NN。 一 般 来 说 ， 
可 以 使 用 实现 非 线性 映射 的 任何 一 种 神经 网 络 。Narendra 和 Parthasarathy[11] 也 讨论 了 递归 网 
络 的 运用 ( 详 见 第 5 章 ) 。 


r® 
O 





神经 网 络 







抽 头 延迟 线 
JO 控制 器 模型 | 
图 10-14 ”运用 神经 网 络 的 间接 控制 器 的 框图 

确保 图 10-14 中 所 示 的 控制 过 程 稳定 是 一 件 非常 困难 的 事 ， 因 为 系统 是 非 线性 的 ， 不 能 应 用 线 
性 系统 中 的 可 控 性 和 可 观察 性 的 概念 。 而 且 控 制 器 的 设计 必须 认真 权衡 估计 ， 多 数 情况 下 建立 在 
试 次 基础 上 。 图 10-14 中 神经 网 络 的 选择 和 控制 器 设计 中 所 用 的 方法 依赖 于 对 系统 运行 状态 的 了 解 。 
例如 ， 如 果 系 统 在 BIBO 下 是 稳定 的 ， 系 统 辨识 就 能 脱 机 进行 ， 可 以 运用 10.7 节 中 讨论 的 方法 。 

如 果 对 动态 系统 的 了 解 是 有 限 的 ， 辩 识 和 控制 都 必须 在 线 操作 ， 而 且 必 须 同 时 进行 。 在 
下 面 这 些 情 况 中 ， 如 表示 复杂 非 线性 系统 的 整个 结构 和 系统 的 单个 组 成 部 分 的 稳定 性 不 能 确 
保 整 个 系统 的 稳定 。 在 系统 辨识 和 控制 器 模型 中 要 特别 注意 权 值 的 调整 率 。 一 般 ， 在 参考 文 
献 [11] 中 的 仿真 报告 表明 ， 对 于 在 线 控制 的 稳定 性 和 效率 来 说 ， 辨 识 过 程 必须 足够 准确 。 这 个 
要 求 可 由 下 面 两 种 方法 完成 : 

1. 系统 网 络 辨识 时 的 权 值 更 新 率 要 比 控制 器 网 络 时 的 权 值 更 新 率 大 。 

2. 在 辨识 误差 值 低 于 一 个 特定 值 前 ， 网 络 控制 器 不 进行 权 值 更 新 。 
这 两 种 方法 更 适应 于 实例 依赖 。 

现在 我 们 复习 两 个 间接 非 线性 控制 的 例子 ， 它 们 都 使 用 基于 神经 网 络 的 系统 辨识 和 控制 
器 结构 方式 ， 目 的 是 说 明 控制 器 设计 的 过 程 和 阐明 平时 磁 到 的 一 些 问 题 。 

例 10.5 ”对 非 线性 动态 系统 模型 2 进行 MRAC 控 制 。 

设 定 一 个 由 下 面 差分 方程 给 出 的 离散 非 线 性 系统 : 


ES 
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y,(k) + y (k-1) 
1+ yi (k)+2yi(k-D 


输入 /输出 系统 表示 对 应 于 10.6 节 讨论 的 模型 2。 在 控制 器 设计 的 过 程 中 ， 假 定 输出 方程 式 如 下 : 


yp(k+D= +u(k) (10-73) 


y p(k +1) = f(y, (4), y, (k - 1)) + uk) (10-74) 
ERARO) 是 未 知 的。 指定 系统 期 望 的 参考 模型 由 下 式 给 出 : 
Ym (k + 1) = O.5y,, (k) + 0.3y,, (k = 1) + r(k) (10-75) 


其 中 r(k) 是 参考 模型 的 输入 。 可 以 看 出 ， 这 个 参考 模型 是 稳定 的 线性 动态 系统 ， 在 任意 时 刻 ， 
模型 和 实际 系统 的 输出 误差 由 下 式 给 


e (k+1)=y,(k+1)-y„(k+1) (10-76) 
# (10-74) 和 式 (10-75) 代入 式 (10-76) ， 可 以 得 到 下 式 : 
e.(k +) = f(y,(&)y,(k- )) + uk) - 0.5y,,(k) - 0.3y,,(k - I) - r(k) (10-77) 


控制 器 设计 的 目的 就 是 最 小 化 式 (10-77) 中 的 误差 值 。 把 式 (10-77) 的 右边 设 为 0， 求 解 控 
制 输入 ， 我 们 得 到 
ulk) = 0.5y,,(k) + 0.3y,,(k) + rek) fy, (Kk), y,(k -LD)) (10-78) 
然而 ， 由 于 非 线 性 函数 (:) 是 未 知 的 ， 必 须 使 用 神经 网 络 近 似 值 。 按 下 式 生成 对 系统 的 
控制 输入 
ulk) = O.5y,,(k) + 0.3y,,(k - 1) + r(k) - N(y, (4), yp 人 K-T) (10-79) 
公式 (10-79) 表示 出 了 非 线性 控制 器 应 用 的 映射 。 把 式 (10-79) RAR (10-74)， 控 制 系统 
在 时 刻 样本 k 的 输出 由 下 式 给 
y (k+l) = fk), yok+ D) - NO, Ck),y, Ck- D) 
+0.5y,,(k) + 0.3y,(k - I +r(k) 
从 式 (10-80) 中 我 们 看 出 ， 非 线性 系统 和 参考 模型 的 输出 之 间 的 差别 直接 依赖 于 神经 网 络 近 
似 的 精度 。 
间接 控制 器 设计 的 第 一 步 是 系统 辨识 过 程 。 假 设 系 统 是 BIBO 稳 定 ， 以 离线 方式 进行 系统 
辨识 。 从 式 (10-74) 能 得 到 下 式 : 
FO pK) y (k - D) = yk+ -uk) (10-81) 
给 系统 输入 然后 记录 它 的 输出 ， 利 用 式 (10-81) 能 够 生成 神经 网 络 的 训练 输入 模式 。 简 
单 地 说 ， 对 神经 网 络 按 下 式 表示 的 映射 进行 训练 
[y,(k),¥,(k- DV — y,(k+1) -uk) (10-82) 
在 本 例 中 我 们 训练 一 个 RBF NN 网 络 ， 它 的 每 个 隐藏 层 有 48 个 神经 元 ， 扩 展 参 数 o = 1。 
输入 信号 为 标准 方差 为 2 的 正 态 分 布 随机 数 。 一 旦 系统 辨识 正确 ， 就 可 把 式 (10-79) 作为 非 
线性 控制 器 。 图 10-15a 显 示 了 测试 的 输入 信号 图 像 : 


(10-80) 


y(t)= 了 sind0zm + sin(25xt + 0.5)] (10-83) 


图 10-15b 给 出 了 在 输入 信号 为 式 (10-83) 时 ， 参 考 模型 和 被 控 非 线性 系统 的 输出 图 像 的 
对 比 。 从 图 看 出 ， 两 者 的 差别 是 可 以 忽 梧 的 。 
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410.6 ”模型 4 的 MRAC 控 制 。 设 由 下 面 的 差分 方程 给 出 的 非 线性 系统 
+ 天 一 了 
1+ ys(k)+2y,(k—D) 
假定 我 们 需要 设计 一 个 神经 网 络 控制 器 ， 使 被 控 系 统 的 所 有 活动 能 用 下 面 给 出 的 参考 模 
型 方程 来 描述 | 
yk+1)=0.5y, (k) + 0.3y,,(k - 1) + rk) (10-85) 
神经 网 络 控制 器 的 结构 由 图 10-16 给 出 。 


1 


Y (k+) 





tan”! (u*(k)) (10-84) 


0 10 20 30 40 50 60 70 80 90 100 





时 间 
a) 
2 
1.5 
| 
0.54 
shy 
a 0 
-0.5 
-1 
-1.5 
~2 
0 10 20 30 40 50 60 70 80 90 100 
时 间 样 本 
b) 


图 10-15 a) 式 (10-83) 给 出 的 测试 信号 ，b) 对 测试 信号 的 响应 
控制 器 设计 的 开始 阶段 需要 进行 系统 辨识 ， 也 就 是 说 ， 网 络 NN 需 要 训练 并 模拟 非 线性 系 
统 的 活动 。 与 系统 对 应 的 NARX 模 型 写 为 下 式 ， 
yp(E+D= flutk),y, k) y k - D1 = f(x) (10-86 ) 
其 中 x = [ulk), yp (k), y lk- DI 。 利 用 第 10.7.1 节 描述 的 方法 ， 使 用 一 个 有 两 个 隐藏 层 、 每 层 30 
个 神经 元 的 MLP NN 进 行 系统 辨识 。 使 用 反 向 传播 算法 训练 网 络 ， 以 区 间 [ 一 4, 4] 中 均匀 分 布 
的 噪声 作为 输入 序列 。 
只 要 系统 被 辨识 ， 控 制 器 设计 就 简化 为 训练 一 个 神经 网 络 NNc， 由 NNc 所 执行 的 NARX 映 
射 由 下 式 给 出 : 
ulk) = gir(k),y,(k).¥, (k - D1 = glr(k), $, (k), $ (k - D] (10-87) 
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或 
u(k) = NNo(y) (10-88) 





图 10-16 10.6 Fei Bl 2 E wl BS A 


其 中 y = rk, 9, (k), 多才 一 TD 。 在 本 例 中 ， 使 用 具有 1000 个 中 心 的 RBF NN 作为 NNc， 其 中 
Ci = [ch Cia, caJENM” 1， Hc; E[ 一 1 1], 由 NNc 执 行 的 映射 函数 为 下 式 : 


NN, (y) = > rally -co) (10-89) 
其 中 
bv) = exp- z) (10-90) 


入 是 网 络 的 权 值 ， 扩 展 参数 o = 0.2, 
被 控 系 统 和 式 (10-85) 给 出 的 参考 模型 间 的 误差 由 下 式 给 


ek+D= yk+D-y, K+ DPK+D) = y, (k+l) (10-91) 
代价 函数 为 下 式 : 


J(k+1)= Le +1)= PAG +1)-y,(k+ DP (10-92) 


网 络 NNc 被 训练 以 最 小 化 式 (10-92) 中 的 函数 。 应 用 最 速 下 降 方法 。 权 值 按 下 式 调 整 ; 








a(k +1) = a,(k)— pL) (10-93) 
dA, Apa) 
式 (10-93) 的 梯度 可 由 下 式 计 算 
ayrk+D ð fl 7 2 

DE 上 Br (+D] | 

-e (k+) bD 
dA, (10-94) 

i ANN, duck) 
=e(k +1) au(k) aa, 


运用 式 (10-88) 和 式 (10-89), REFI: 
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=g(ly-el) (10-95) 


网 络 输出 对 信号 u(k) 的 导数 由 下 式 近 似 : 
oNN, . NN (u(k) + £)- NN (uk)) 
ou(k) E 
其 中 是 比 学 习 率 参数 小 得 多 的 数 。 
最 后 ， 应 用 式 (10-94), s& (10-95) 和 式 (10-96) ， 我 们 能 得 到 如 下 的 学 习 规 则 ， 用 来 
调整 RBF NN 控制 器 NN. 的 权 值 ; 


A,(k +1) = A,(k) ne (k +1) 


(10-96) 


SEE ONNO) (ly - e.l) (10-97) 
式 (10-97) 用 来 确定 网 络 控制 器 的 权 值 。 图 10-17 给 出 了 参考 模型 和 被 控 非 线性 系统 的 输出 
之 间 的 对 比 ， 测 试 信号 是 : 


s(n) = = sin(1Oxn) + sin(20xn)] (10-98) 


从 图 可 以 看 出 差别 较 小 。 
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时 间 ，s 
图 10-17 Æ (10-98) 所 示 的 测试 信号 下 ， 被 控 系 统 和 参考 模型 的 输出 之 间 的 对 照 图 


10.8 独立 成 分 分 析 : 未 知 源 信和 号 的 盲 分 离 


本 节 的 主要 目标 是 给 出 进行 独立 成 分 分 析 (independent-component analysis, ICA) 的 一 种 
神经 网 络 方法 ， 然 后 介绍 用 于 ICA 的 快速 固定 点 算法 (fast fixed-point algorithm, FFPA)。 首 先 
介绍 ICA 的 基本 思想 ， 然 后 给 出 几 个 例子 ， 说 明 利 用 ICA 进 行 信 号 处 理 和 图 像 处 理 的 问题 。 


10.8.1 独立 成 分 分 析 的 概述 


ICA 可 以 看 作 是 主 成 分 分 析 (PCA) 的 扩展 〈 详 见 9.2 节 )， 主 要 用 于 线性 混合 或 未 知 产 信 
号 分 离 问题 中 的 未 知 源 信号 分 离 [23-26]， 也 用 于 特征 值 的 提取 。 从 一 组 可 观察 的 〈 可 计算 的 ) 
噪声 信号 中 分 离 源 信号 不 必 一 定 要 知道 传输 信道 的 特性 。 未 知 产 信号 分 离 技术 可 应 用 于 阵列 
处 理 、 医 学 信号 处 理 、 通 信 、 语 音 处 理 、 图 像 处 理 和 许多 其 他 领域 。 一 般 来 说 ， 存 在 两 类 未 
知 源 分 离 问题 : BRA A ANS AR (convolutive) 混合 。 我 们 只 关注 瞬时 混合 的 问题 。 
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PCA 和 ICA 的 主要 区 别 是 与 标准 PCA 相 关 的 非 关 联 属 性 的 替代 ， 在 ICA 中 ,数据 向 量 的 线 
性 扩展 系数 必须 相互 独立 ， 或 者 尽 可 能 独立 。 这 就 是 说 ， 高 阶 统计 [27, 28] 必 须 用 于 ICA 扩 展 
的 确定 。 在 标准 PCA 中 ， 二 阶 统计 只 提供 去 相关 。 在 非 高 斯 处 理 、 非 最 小 相 问题 、 有 色 噪 声 
或 非 线性 处 理 中 高 阶 统计 很 有 用 [27]。 因 此 ， 不 必 惊 奇 ， 当 ICA 应 用 于 神经 网 络 时 ， 在 学 习 阶 
段 必须 使 用 非 线 性 ， 即 使 最 后 的 输入 /输出 是 线性 映射 [29]。 

ICA 的 基本 概念 

假定 存在 9 个 零 均值 、 宽 平稳 源 信号 s,(k), sk), + s (k), Hpk = 1, 2, … 《离散 时 间 的 索 
引 或 图 像 的 像素 )， 它 们 都 是 标量 ， 而 且 对 于 每 一 个 样本 值 :都 相互 独立 。 独 立 的 条 件 ( 见 
A.7.1 节 ) 可 明确 定义 为 : 源 信 号 的 联合 概率 密度 等 于 各 信号 的 边缘 概率 密度 的 乘积 ， 即 : 


Æ Is (K), sak), 8, (k)] = 415, (PELs (kK): 415, (KD) = [] 4s. (10-99) 


各 个 源 信号 假定 都 是 未 知 的 (不 可 观察 的 ) 。 然 而 ， 我 们 能 得 到 一 组 /个 未 知 信号 的 噪声 线性 
混合 xb, (Ky …, 刀 ( 昌 。 这 些 可 计算 的 信号 由 下 式 给 出 : 


x(k) = Ñ s;(ka; +n(k) (10-100) 


其 中 | = 1, 2, …, h， 元 素 aj 设 为 未 知 ，n O 是 加 性 度量 噪声 。 现 在 我 们 定义 向 量 x(k) = [x(k), 
x(k), 7, Xa (ANY AER", s(k) = [ID SAK), sa (A) SER! ( 源 向 量 包 含有 g 个 独立 
成 分 )，4 = [a, a, ++, a], AER! (混合 矩阵 )， 其 中 4 的 列 向 量 是 ICA 扩 展 的 基本 向 量 。 等 
式 (10-100) 可 和 写 为 如 下 的 向 量 矩 阵 形式 : 


x(k) = As(k) + n(k) = > s,(k)a, + n(k) (10-101) 


这 就 是 所 提 到 的 ICA 扩 展 。 假 定 混合 矩阵 4 中 行 数 至 少 等 于 列 数 (hi>9g)， 且 矩阵 是 列 满 秩 ， 
Al: p(A)=q ( 即 ， 源 信号 的 混合 体 都 是 不 同 的 )。 

与 ICA 相 关 的 不 明确 点 

ICA 的 使 用 中 存在 几 个 不 明确 的 地 方 : 

1. 已 分 离 信号 (独立 成 分 ) 的 幅度 不 能 确定 。 因 为 98 和 4 是 未 知 的 ， 见 式 (10-101)。 当 用 
一 个 标量 去 除 4 中 相应 的 列 (na) 时 ， 源 信号 中 的 这 个 标量 乘 数 都 会 不 起 作用 。 

2. 已 分 离 信 号 的 符号 不 明确 ， 即 独立 成 分 乘 以 一 1 不 影响 模型 。 

3. 独立 成 分 的 阶 数 不 能 确定 。 这 也 是 因为 8 和 4 是 未 知 的 。 任 一 个 独立 成 分 可 定义 为 “第 
一 ”个 。 为 了 说 明 这 点 ， 假 定 P > 0 (PER) 是 一 个 置换 矩阵 ， 那 么 ICA 模 型 就 可 写 为 下 式 
(无 噪声 的 情况 ) : 

x = AP"'Ps =(AP™')(Ps) = AS (10-102) 
RAE “PN” RANA, Hse BRI ee. 


10.8.2 用 神经 网 络 进 行 独立 成 分 分 析 


这 一 节 讨 论 用 ICA 进 行 未 知 源 分 离 适 合 于 神经 网 络 方法 ， 它 最 初 是 由 Karhunen et al.{29] 
提出 的 。 图 10-18 给 出 了 用 于 源 信号 分 离 (或 估计 独立 成 分 ) 和 估计 ICA 扩 展 的 基础 向 量 [ 即 式 
(10-101) 的 混合 矩阵 4 的 列 向 量 估 计 ] 的 基本 神经 网 络 结构 。 

预 漂白 过 程 

分 离 过 程 之 前 的 漂白 过 程 ( 即 预 漂白 ) 是 一 个 很 关键 的 步骤 。 这 个 过 程 把 观察 到 的 信和 号 
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的 方差 规格 化 为 1!。 一 - 般 来 说 ， 使 用 经 过 预 漂白 的 输入 信号 的 分 离 算 法 有 更 好 的 稳定 性 ， 收 敛 
也 较 快 。 但 是 ， 如 果 混 合 矩 阵 4 是 病态 的 ， 或 者 一 些 源 信号 比 另 一 些 信号 相对 较 缠 ， 那 么 漂白 
数据 也 会 使 分 离 问 题 更 复杂 [30, 31]。 应 用 下 面 的 转换 漂白 输入 向 量 x(D; 

u(k) = Vx(k) (10-103) 


wr 


v 








ICA 基 础 向 量 估计 


FA10-18 ” ”ICA 网络。 网 络 的 三 屋 分 别 漂白 、 分 离 、 估 计 基 础 向 量 。 需 要 确定 
的 权 值 和 矩阵 是 VY，W” FQ 


其 中 v(h) 是 第 个 被 漂白 的 向 量 ,，V 是 漂白 矩阵 。 漂 白 矩 阵 可 由 两 种 方法 确定 批 处 理 或 神经 
元 学 习 。 对 于 批 处 理 方法 ， 如 果 使 用 PCA 确 定 漂白 矩阵 ， 它 由 下 式 给 

V=D "F" (10-104) 
其 中 VER***,，D = diaglA,, An =, AER, E = [ci co ， c JER “4, A Æ ERC, = 
Bi x(x” (DjE 吕 的 第 ;个 大 特征 值 ，c; 是 伴随 (E) 特征 向 量 ，i = 1 2, …, 9。 因 而 , 式 
(10-103) 的 转换 中 其 实 包含 两 个 步骤 ， 即 压缩 和 漂白 。 压 缩 步骤 中 包括 给 9 ( 源 信号 的 数目 ) 
选择 适当 的 值 。 因 而 ， 如 果 式 (10-101) 中 的 噪声 项 n(k) BEAD AEREE nkr (k)} = 
oz 的 零 平 均 高 斯 白 噪声 ， 那 么 前 面 提 到 的 可 用 于 漂白 的 PCA 也 能 用 于 选择 ( 即 估计 ) 源 信 
号 q 的 数目 (或 独立 成 分 数 ) 可 以 被 恢复 。 在 噪声 协 方差 矩阵 中 ，o 是 噪声 向 量 n(k) 的 各 分 量 
的 联合 方差 。 设 定 噪 声 向 量 与 源 信 号 s (A) 是 没有 关联 的 ，i = 1, 2, …, 9。 在 这 些 设 定 下 ， 数 据 
向 量 x(k) 的 协 方差 矩阵 由 下 式 给 出 ， 


E(x(k)x" (k)} = SEI) jaa) +07, (10-105) 


4 是 式 (10-104) 中 协 方差 矩阵 的 最 大 特征 值 ， 即 ， 和, A, …, A, RB SF EES O om 
ERE AACR. Ai, BROT RIA RRR (理论 上 说 这 些 
特征 值 等 于 中 ) MRR (signal-to-noise) 率 足 够 大 ， 那 么 这 4 个 最 大 信号 特征 值 将 明显 
地 大 于 剩余 的 噪声 特征 值 。 实 际 应 用 中 ， 输 入 协 方差 矩阵 的 特征 值 决定 于 有 效 数 据 向 量 的 协 
方差 矩阵 的 时 间 平 均 ， 由 下 式 给 出 : 


1 < i 
C = wr (k) (10-106) 
其 中 N 是 输入 向 量 的 总 数 。 
学 习 漂 白 和 矩阵 的 随机 近似 算法 由 下 式 给 出 : 
VEE+D)= VE)- pAR) YY (k) - IW (k) (10-107) 


上 式 中 的 学 习 因子 参数 要 按照 式 (9-48) 所 述 进行 调整 ， 即 : 





A 
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u(k) = — + 0<y<1.0 (10-108) 
i teok 
u(k-1) 
其 中 ?是 遗忘 因子 。 当 漂白 〈 正 交 ) 转换 V 应 用 于 如 式 (10-103) 的 输入 时 ， 输 出 的 漂白 结果 
vik) 将 得 到 漂白 条 件 ， 即 : 
E{u(k)u" (k)} = 1, (10-109) 
其 中 wh) 在 式 (10-103) 中 已 定义 。 
分 离 过 程 
分 离 过 程 可 采用 多 种 不 同 的 方法 进行 [26, 30, 32]。 近 似 对 比 函 数 、 分 离 矩 阵 最 大 化 等 方 
法 已 经 发 展 起 来 [26]。 但 是 ， 对 比 函 数 典 型 地 需要 利用 估计 的 高 阶 统计 数据 进行 大 量 的 批 处 理 
计算 ,这 导致 自 适应 分 离 算 法 非常 复杂 。 后 面 将 会 看 到 ， 利 用 数据 的 峭 度 (四 阶 积累 ) 已 经 
足够 了 。 在 第 10.8.3 节 中 给 出 神经 元 学 习 方 法 的 另外 一 种 方式 ， 用 在 这 里 收敛 将 更 快 。 另 外 一 
类 分 离 方 法 是 利用 神经 网 络 进行 源 信号 的 分 离 [31]。 在 图 10-18 中 ， 网 络 结构 的 第 二 阶段 用 于 
漂白 信号 v 的 分 离 。 线 性 分 离 转换 由 下 式 给 出 : 
y(k) = W u(k) (10-110) 
JEP WER (WW = 1, ERRER., WE, Be SE MERAH, BSO = yk), R 
TARRI — ARR, ERT Rf Ss), MAAAR 一定 也 “了 暗暗 地 
(blindly)” 被 确定 [ 见 式 (10-101) ]。 
用 来 确定 分 离 矩阵 的 一 个 非常 直接 的 神经 元 学 习 方 法 基于 下 式 的 非 线性 PCA 子 空间 学 习 
规则 [33-37] ( 详 见 9.3.6 节 ): 
Wk + 1) = WO + uP {VD = Ws) sb") (10-111) 
其 中 v(k) 是 式 (10-103) 的 预 漂白 输入 向 量 ， 函 数 8(* ) 是 选 定 的 合适 的 非 线性 函数 ， 为 了 确 
保 信 号 稳定 地 分 离 ， 它 通常 是 奇 函 数 。 学 习 率 参数 KA RRRA (10-108) 自 适应 方法 调整 ， 
yk) 代 赫 wk)。 为 了 好 的 收敛 性 ， 初 始 权 值 矩 阵 W(0) 最 好 用 一 组 正 交 向 量 作为 列 向 量 。 通 
常 ， 非 线性 函数 g(: ) 选 为 下 式 ; 
g(t) = B tanh(1/P) (10-112) 
其 中 8(D = df(n/de, logistics (D = B'in{cosh(t/B)| ( 详 见 9.7 节 )。 对 于 式 (10-111) 的 学 习 
规则 用 于 非 线性 时 ， 这 个 函数 的 选取 不 是 任意 的 ， 它 是 由 需要 确定 ICA 扩 展 高 阶 统计 
(Higher-order statistics) 的 事实 所 激发 的 。 这 也 能 从 另 一 个 未 知 信 号 分 离 的 神经 学 习 规则 中 
观察 到 ， 这 个 学 习 规 则 称 为 双 梯 度 算法 [29, 36, 37]， 由 下 式 给 
Wk + 1) = WO + wud’) + YOWOU— W OW] (10-113) 
Apro 是 另 一 个 增益 参数 ， 一 般 约 是 0.5 或 1。 这 是 一 个 随机 梯度 算法 ， 在 权 值 矩 阵风 为 正 交 
的 约束 下 ， 用 来 最 大 化 或 最 小 化 性 能 指标 如 下 : 


1) = YEO) (10-114) 


式 (10-114) 的 正 交 约 东 条 件 在 式 (10-113) 的 学 习 规 则 中 是 以 附加 方式 实现 的 。 只 要 在 式 
(10-114) HEROE EARS) 性 能 标准 就 可 包含 输出 的 四 阶 统计 《四 阶 积累 ) 之 和 ， 即 
峭 度 [27]。 因 此 ， 标 准 或 者 以 负 峭 度 〈 峰 谷 值 ) 最 小 化 源 信号 ， 或 者 以 正 峭 度 ( 峰 顶 值 ) 最 大 
化 源 信号 ， 具有 负 峭 度 的 源 信号 通常 称 为 亚 高 斯 信号 ， 具 有 正 峭 度 的 源 信号 常 指 超 高 斯 信号 。 
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在 式 (10-114) 中 期 望 算 子 将 会 被 删 掉 ， 因 为 我 们 只 考虑 瞬时 值 。 现 在 把 logistic 函 数 f(r) = [504] 
In[cosh(1)] (6 = 1) 写成 泰勒 级 数 的 展开 形式 : 


2 4 6 
f(t) = Infcosh(f)]=—-—+———… (10-115) 


由 于 漂白 ， 二 阶 项 六 2 是 平均 常数 。 非 线性 由 8(D = df(D)/dt = tanh(D = 1 一 FY3 + 27/15 一 … 给 出 ， 
如 果 数 据 是 预 漂白 ， 那 么 三 阶 项 将 起 主导 作用 (一 个 奇 国 数 )。 

估计 ICA 的 基础 向 量 

这 是 图 10-18 的 最 后 一 个 阶段 。 本 节 给 出 两 种 方法 估计 ICA 基 础 向量 ， 或 估计 式 (10-101) 
所 示 的 混合 矩阵 4 的 列 向 量 。 第 一 个 方法 是 批 处 理 方式 ， 此 时 年 阵 4 的 估计 4 由 下 式 给 出 : 

A= ED'’w (10-116) 

其 中 D 是 式 (10-104) ARRIERE, EAE (10-104) 所 示 的 关联 特征 向 量 的 列 ，W 是 
分 离 矩 阵 。 第 二 个 方法 是 用 神经 方式 来 估计 ICA 基 础 向 量 。 从 图 10-18 的 最 后 阶段 可 给 出 观察 
数据 的 估计 值 如 下 : 


£=Qy (10-117) 
“n = 0 (或 x = As), EA (10-117) 和 式 (10-101) 进行 比较 ， 可 以 看 出 由 于 y = 3， 所 以 
Q =4， 因 此 ， 年 阵 @ 的 列 向 量 就 是 ICA 基 础 向 量 ， 即 4 的 列 向 量 。 神 经 学 习 算 法 可 由 下 面 的 误 
差 性 能 测量 表达 式 转 变 而 来 : 


1 ao d 2 
IO = se -êl = se - 2l (10-118) 


4 SR FAB KEHE OCK + 1) = OC) ~ MYo7(@) 时 ， 用 于 估计 IJCA 基 础 向 量 的 神经 学 习 规 则 变 为 
FR: 
Olh +1) = QK) + pE) -QU YY" (K) (10-119) 


其 中 4 > 0 是 学 习 率 参数 ， 它 在 按 式 (10-108) WATE, THOA 赫 换 wh) 进行 调整 。 
例 10.7 ”第 一 个 例子 分 离 三 个 正弦 信号 ， 它 们 的 频率 分 别 是 万 = 500Hz, f = 600Hz, 

fı = 1000Hz， 采 样 频率 是 人 = 10kHz。 初 始 信号 如 图 10-19 所 示 。 使 用 的 混合 矩阵 与 Karhunen 

et al.[29] 在 第 一 个 例子 中 用 的 一 样 ， 形 如 下 式 : 

0.0891 0.3906 -0.3408 

-0.8909 -0.6509 0.8519 

0.4454 0.6509 -0.3976 


A= (10-120) 








因此 ， 由 x(k) = Ash 可 得 到 三 个 “观察 到 的 ”信和 号 ,= 1, 2…，100， 如 图 10-20 所 示 。 这 是 Bo 
一 组 三 条 曲线 瞬间 混合 图 像 。 首 先 ， 用 式 (10-103) 给 出 的 批 处 理 漂白 过 程 对 观察 信号 进行 

预 漂白 。 在 本 例 中 不 必 使 用 压缩 ， 因 此 h = 4 = 3。 使 用 式 (10-111) 非 线性 PCA 子 空间 学 习 规 
WET BS, sh (10-108) 中 的 遗忘 因子 y = 0.9, B= [AFR (10-112) 表示 的 非 线性 ]， 为 

了 收敛 训练 100 回 合 。 根 据 零 均值 、 单 位 方差 的 高 斯 分 布 选择 一 组 随机 初始 权 值 。 然 后 ， 权 值 
矩阵 的 列 向 量 正 交 化 。 已 分 离 信 号 如 图 10-21 所 示 。 因 为 我 们 已 经 知道 正确 的 结果 ， 所 以 能 

据 已 知 (实际 ) 源 信号 计算 每 一 个 分 离 信号 的 相关 系数 ， 这 些 相关 系数 如 图 10-21 所 示 。 注 意 ， 

分 离 信 号 与 实际 源 信号 的 关联 非常 紧密 ， 负 相关 系数 表明 ICA 分 离 过 程 的 输出 有 一 个 180" 的 相 

位 平移 。 还 要 注意 ， 输 出 信号 的 顺序 不 同 于 图 10-19 所 示 的 初始 信号 。 


A 
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幅度 





2 
1 
0 
-1 
-2 
0 10 20 30 4 5 #60 70 80 90 100 
2 时 间 样 本 183s, (f= 1 000Hz) 
1 
0 
-1 
-2 
0 10 20 30 4 4250 60 70 80 #490 100 
2 时 间 样 本 信和 号 s; (f= 600Hz) 
1 
0 
-1 
-2 
0 10 20 30 4 50 #6 70 80 90 100 
时 间 样 本 信号 ss (f = 500Hz) 
图 10-19 三 个 初始 正弦 源 信和 号 
2 
1 
0 
-1 
-2 10 2 #4230 40 450 6 7 80 £9 10 
时 间 样 本 
4 
2 
0 
-2 
“49 10 20 30 4 5 6 7 £80 9% 100 
时 间 样 本 
3 
2 
1 
0 
-1 
-20 10 2 30 40 #50 6 70 80 90 100 
时 间 样 本 


图 10-20 “观察 到 的 ”混合 信号 
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0 10 2 30 40 50 6 7% 80 9% 100 
时 间 样 本 


信号 5，( 相 关系 数 = 0.9991) 





be 
最 
时 间 样 本 
信和 号 5。( 相 关系 数 = 0.9994) 
fe 
是 





时 间 样 本 


图 10-21 使 用 非 线性 PCA 子 空间 学 习 规则 分 离 的 正弦 源 信号 


| 我 们 还 想 估 计 ICA 的 基础 向 量 [ 即 式 (10-120) 给 出 的 混合 矩阵 4 的 列 向 
。 利 用 式 (10-116) 的 批 处 理 方法 ， 我 们 能 得 到 和 矩阵 4 的 估计 值 为 : 

0.1101 0.3478 0.3807 
-0.9372 -0.8376 -0.6109 
0.4749 0.3985 0.6323 


把 这 些 结果 同 式 (10-120) 中 的 实际 混合 矩阵 相 比较 ， 我 们 能 看 出 和 矩阵 4 的 列 向 量 估计 值 不 准确 ， 
但 是 ， 它 们 之 间 比 较 相 近 。 注 意 矩 阵 4 的 列 向 量 的 顺序 不 同 于 初始 混合 矩阵 。 接 下 来 使 用 神经 学 
习 方法 估计 ICA 的 基础 向 量 。 选 择 一 组 随机 权 值 作为 初始 权 值 矩阵 Q@， 式 (10-108) 中 的 自 适应 
学 习 率 参 数 中 的 遗忘 因子 y = 0.9， 在 训练 5 个 回合 后 ， 网 络 收敛 ， 混 合 矩 阵 的 估计 值 由 下 式 给 出 

0.1095 0.3461 0.3788 
-0.9323 -0.8333 -0.6079 
0.4724 0.3964 0.6292 


同样 地 ， 式 (10-122) 中 的 混合 矩阵 估计 值 不 准确 ， 但 它 也 与 式 (10-120) 中 所 示 的 实际 混 
合 和 矩阵 值 相近 。 

例 10.8 本 例 分 离 三 个 不 同 的 瞬间 混合 次 声 信 和 号 [38-41]， 见 图 10-22a。 这 些 次 声 信 号 分 
别 记录 为 三 个 独立 的 事件 ， 如 图 10-22b 所 示 。 这 三 个 事件 分 别 是 : (1) Galunggung Java 火 出 爆 


A= (10-121) 








A= (10-122) 
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0.01 0.03 0.1 02 1.0 10.0 Hz 


1P Fa Bite AE LTUR TR BLA 
(最 高 频率 ) (最 高 频率 ) 范围 
火山 





微 气压 





重力 波 t 
< 火球 
(最 高 频率 ) 
山脉 合并 波 


0.01 0.1 1.0 10.0 Hz 


火山 信号 





0 100 200 300 400 500 600 700 800 
时 间 样 本 


MAW 信 和 号 


度 


幅 





0 100 200 300 400 500 600 700 800 
时 间 样 本 


重力 波 信号 





0 100 200 300 400 500 600 700 800 
时 间 样 本 
b) 
图 10-22 a) 次 声 频 率 范围 ，b) 三 种 初始 次 声 源 信号 


发 次 声 信号 [40]; (2) 新 西 兰 发 起 的 出 组 合 (mountain-associated) 被 [41];，(3) 内 大 气 层 重 
力 次 声波 {38]， 重 力 次 声波 是 由 大 气 中 的 温度 倒置 造成 的 。 这 些 事件 都 是 用 一 个 大 的 四 传 感 次 
声 阵列 (FRESU) 从 1981 一 1983 年 间 在 南极 洲 的 Windless Bight 记 录 的 。 图 10-23 给 出 了 用 于 收 
集 数 据 的 F 阵 列 的 几何 图 。 次 声 信号 都 是 用 标准 采样 频率 1 Hz 采样 得 到 的 。 次 声波 是 亚 音频 声 
波 [38]， 频 率 范围 一 般 为 0.01 < f< 10Hz， 许 多 自然 和 人 为 现象 都 能 产生 这 种 波 。 见 图 10-22a。 
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次 声 传 感 的 波段 一 般 为 0.01~ 10Hz。 次 声波 来 自 于 火山 爆发 、 出 组 合 波 、 极 光波 、 地 震 、 流 506 
星 、 雪 崩 、 恶 劣 气候 、 矿 山 爆 破 、 高 速 航空 、 重 力 波 、 微 气压 和 核 爆 炸 [421]。 也 发 现 大 象 (可 jso 
能 其 他 动物 ) 用 次 声波 进行 沟通 [43]。 为 确保 遵守 “全 面 核 试验 禁止 条 约 (CTBT)” 禁 止 核 
爆炸 ， 国 际 监督 机 构 (IMS) 建立 了 一 个 收集 全 球 次 声 的 、 地 震 的 、 水 底 传 音 的 和 放射 性 核 

的 数据 系统 [42]。 对 于 次 声 网 络 ， 现 在 专家 建议 频率 从 0.02 ~ 5.0Hz 的 范围 用 于 传 感 。 


YDIS, km 









CHF2 
X (—2.4055, 5.6579 5 传 感 带 宽 ，0.01 一 0.2Hz 


采样 频率 ; 人 = 1 Hz 


4 CHF3 
(5.4587, 3.0989) 


XDIS, km 






CHF4 
一 2 (3.6853, 一 1.0567) 


10-23 ”南极 洲 Windless Bight 次 声 传 感 F 阵 列 
三 种 信和 号 用 下 面 的 随机 混合 矩阵 进行 人 为 混合 。 
0.3050 0.9708 0.4983 
0.8744 0.9901 0.2140 


“10.0150 0.7889 0.6435 
0.7680 0.4387 0.3200 


(10-123) 


式 (10-123) 中 的 数据 随机 选取 自 区 间 [0, 由 的 均匀 分 布 中 。 因 此 ， 由 x(k) = As(k) 可 得 到 四 个 
观察 的 混合 k= 1, 2, …, 768， 如 图 10-24 所 示 。 这 些 信 号 的 均值 已 被 删除 为 零 。 由 式 
(10-106) 给 的 观察 数据 协 方差 矩阵 的 特征 值 分 别 是 入 = 2.1346, A, = 0.1976, A, = 0.0434 
AIA, = mn. 10 -“。 第 四 个 特征 值 远 比 前 三 个 小 得 多 。 因 此 ， 只 有 前 三 个 最 大 的 需要 保 
留 ， 从 式 (10-104) 的 漂白 矩阵 VE “可 知 观察 数据 既 需要 漂白 也 需要 压缩 。 因 此 Ah = 4,， 4 = 3 
(重新 得 到 源 信号 的 数目 )。 和 前 面 的 例子 一 样 ， 使 用 式 (10-111) 中 的 非 线性 PCA 子 空间 学 
习 规则 进行 分 离 。 根 据 零 均值 、 单 位 方差 的 高 斯 分 布 选择 一 组 随机 初始 权 值 ， 然 后 ， 权 值 矩 
阵 的 列 向 量 正 交 化 。 在 式 (10-108) 中 的 遗忘 因子 7 = 0.9, B= AFA (10-111) 表示 的 非 [510 
线性 ]， 为 了 收敛 训 练 2530 回 合 。 最 后 被 分 离 的 信号 如 图 10-25 所 示 。 因 为 我 们 已 经 知道 源 信 号， 
所 以 能 根据 已 知 (实际 ) 源 信号 计算 每 一 个 分 离 信号 的 相关 系数 ， 这 些 相关 系数 如 图 10-25 所 
示 。 分 离 信号 与 实际 源 信号 的 关联 非常 紧密 , 负 相 关系 数 表明 ICA 分 离 过 程 的 输出 改变 了 符号 。 
不 同 于 前 一 个 问题 ， 分 离 信 号 的 输出 顺序 与 图 10-22b 所 示 的 初始 源 信号 相同 。 运 用 ICA 对 四 信 
道 的 单个 事件 的 阵列 信号 〈 即 火山 爆发 [44]) 进行 了 分 离 ， 在 ICA 过 程 中 使 用 的 次 声 信 号 是 缠 
绕 混 合 。 结 果 非 常 有 启发 ， 表 明 在 主 火山 次 声 信号 中 “隐藏 ”着 微 气 压 信 号 
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H 0 
5 100 200 300 400 500 600 700 800 
5 时 间 样 本 
其 
ig 0 
5 100 200 300 400 500 600 700 800 
时 间 样 本 
4 一 一 —r r 
2 
R 
cl 
= o 
2 100 200 300 400 500 600 700 800 
时 间 样 本 
4 
2 
= o 
-2 100 200 300 400 500 600 700 800 
时 间 样 本 


图 10-24 “观察 的 ”混合 次 声 信号 





0 100 200 300 400 500 600 700 800 
o 时 间 样 本 


相关 系数 = 0.9881 (重力 波 信号 ) 





0 100 200 300 


400 500 600 700 R00 
时 间 样 本 


图 10-25 ”应 用 非 线 性 PCA 子 空间 学 习 规 则 分 离 次 声 源 信号 
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10.8.3 用 于 ICA 的 快速 固定 点 算法 


应 用 式 (10-111) 的 非 线 性 PCA 子 空间 学 习 规 则 的 ICA 进 行 源 信 号 宣 分 离 至 少 有 一 个 缺点 ， 
就 是 收敛 相对 较 慢 。 而 只 要 数据 结构 人 允许， 应 用 快速 固定 点 算法 (FFPA) 的 ICA 却 能 很 快 收 
敛 到 最 精确 解 。FFPA 不 依赖 任何 用 户 指定 的 参数 ， 它 能 处 理 所 有 的 非 高 斯 独立 成 分 ， 而 不 必 
考虑 它 的 概率 分 布 (实际 上 有 一 个 信号 可 以 是 高 斯 独立 成 分 )。 它 的 收敛 速度 是 立方 级 的 ， 与 
基于 梯度 的 算法 相 比 ，FFPA 的 速度 要 快 10~ 100 倍 145]。 

我 们 用 稍 有 不 同 的 方式 来 处 理 10.8.2 节 的 问题 。ICA 的 基础 线性 关系 取 为 下 式 : 

x=As (10-124) 
除 不 计 噪 声 项 和 时 间 依 赖 外 ， 它 与 式 (10-101) 给 出 的 关系 相同 。 假 定 sE 中 (有 4 个 独立 成 
分 的 向 量 ) 是 零 均 值 单 位 方差 ， 并 且 元 素 都 相互 统计 独立 。 当 />>9q 时 ， 观 察 的 向 量 xE 路 ”有 
A 个 计算 的 变量 ，( 混 合 矩 阵 ) AER ?是 满 秩 。 正 如 10.8.2 节 所 述 ， 对 x 中 计算 的 数据 预 漂白 通 
常 能 提高 某 些 ICA 算 法 的 稳定 性 和 收敛 性 。 转 换 和 矩阵 V 可 用 标准 的 PCA 方 法 求 得 ， 这 样 观察 到 
的 数据 就 线性 转换 成 一 个 向 量 : 

v= Vx (10-125) 
向 量 v 的 元 素 是 互 不 关联 的 ， 而 且 有 单位 方差 。 因 此 ， 关 联 和 矩阵 (RAVES EHR 
和 矩阵) 是 单位 算 阵 或 恒 等 矩 了 泗 ， 即 E[vv ] = 7。 如 10.8.2 节 所 讨论 ， 在 这 个 过 程 〈 即 数据 压缩 ) 
中 向 量 v 的 维 数 也 下 降 为 4 〈 独 立成 分 的 数目 ) 。 因 此 ，PCA 预 漂白 过 程 实际 上 有 两 个 目标 : 规 
格 化 数据 和 确定 独立 成 分 的 数目 ” 。 把 式 (10-124) 代入 式 (10-125), BITE: 


v= VAs = Bs (10-126) 
其 中 B = V4 是 一 个 正 交 矩阵。 通过 前 面 的 假定 ， 由 式 (10-126) 我 们 写 出 下 式 : 
E[vu' ]= E{Bss’ B']= BE[ss’ |B’ = BB’ =I (10-127) 
I I 


因而 ， 问 题 就 简化 为 确定 正 交 和 矩阵 BER**“*， 由 式 (10-126) 可 知 ， 它 能 用 来 进行 独立 成 分 信 
号 分 离 ， 即 
§=B'v (10-128) 
所 以 ， AERAR EREA = BV, 
用 FFPA 进 行 ICA 是 基于 一 种 高 效 固定 点 迭代 法 ， 求 得 观察 变量 线性 组 合 的 峭 度 的 局 部 极 
值 。 一 般 ， 一 个 零 均 值 随机 变量 x 的 峭 度 (或 四 阶 积 累 ) [27, 28] 由 下 式 给 出 ， 
kurt(x) = E[x4]- 3(E[Lx’ J)” (10-129) 
对 于 两 个 独立 随机 变量 x, 和 x,， 等 式 Kurt(xt + x) = kurt(x,) + kurt(x,) 成 立 。 另 外 ， 对 于 零 均值 
随机 变量 x 和 标量 wc， 等 式 kurt(axo = akuta) 成 立 。 淋 白 的 观察 变量 的 线性 组 合 能 写 为 w”v， 
而 且 这 个 线性 组 合 可 被 搜索 ， 因 为 它 包含 最 大 或 最 小 峭 度 ， 其 中 权 值 向 量 w 是 有 界 的 ， 即 ||wl|， 
= 1。 降 阶 FFPA 方 法 基于 这 一 思想 ， 通 过 这 种 算法 求 得 的 每 一 个 向 量 w, (i = 1, 2, …, 9) 都 是 正 
交 算 阵 B 的 列 向 量 。 从 参考 文献 [45]， 估 计 一 个 独立 成 分 的 算法 如 下 : 





日 个 标准 的 PCA 方 法 不 总 是 计算 独立 分 量 数 的 最 好 方法 。 存 “ 些 情况 下 其 他 方法 更 适合 ， 例 如 称 为 Akaike 
信息 理论 标准 (AIC) 的 最 大 似 然 估计 的 扩展 和 编码 理论 的 最 小 描述 长 度 (MDL) [46]。 
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用 快速 固定 点 算法 进行 CA (一 个 分 量 ) 


SR 淋 白 观察 到 的 数据 x 得 到 向 量 。 
步骤 2 随机 设 定 初始 权 值 向 量 w(0) (注意 省 略 了 下 标 ， 因 为 开始 就 只 关注 于 找 一 个 独立 成 分 )， 并 
把 它 规格 化 为 单位 长 度 ， 即 


Put RR SP AA ES NACI OREO ABM: 


w(0) 


w(0)<— 
[wol 





设 定 j = 1, 
步骤 3 w(j)=Eluw' (ji -Do -3w(7-D， 利 用 一 个 相对 多 个 数目 的 向 量 uw 估 计 期 望 因子 。 
步骤 4 规格 化 w( 有) 为 单位 长 度 : 
ws) 
wl, 
RSS 如 果 |w QO)w0 一 1)| 不 接近 于 1， 那 么 令 j->j + 1， 然 后 返回 步骤 3， 和 否则 ， 输 出 向 量 wU)。 
步骤 6 利用 wU)， 由 下 式 得 到 其 中 一 个 分 离 源 信号 . 
s(k) = WwW GUCR) k= 1,2,. 口 


要 估计 4 个 独立 成 分 ， 只 需 把 上 面 的 算法 运行 49 次。 但是， 为 了 确保 每 次 估计 不 同 的 独立 
成 分 ， 在 上 面 给 出 的 循环 算法 中 要 包含 一 个 正 交 投影 。 基 本 思想 就 是 ， 如 果 目 前 找到 的 w0O) 
正好 投影 到 与 预先 找到 的 矩阵 B 的 列 向 量 正 交 的 空 : 间 ， 那 么 就 一 个 接 一 个 地 对 独立 成 分 进行 个 
计 。 因 此 ， 我 们 定义 矩阵 吾 的 列 向 量 就 是 预先 计算 的 矩阵 四 的 列 向 量 。 投 影 操 作 加 在 上 面 步骤 
4 的 开头 ， 即 步骤 4 变 为 ; 

FRA: 令 w(j) 一 w(j)- BB wi), IG 


w) 





w(j) 
lw stl, 
在 开始 迭代 前 ， 初 始 随 机 向 量 也 要 按 这 种 方式 投影 。 

例 10.9 应 用 上 面 介绍 的 降 阶 FFPA 进 行 ICA ， 对 混合 数字 图 像 进 行 分 离 。 图 10-26 显 示 了 
初始 图 像 。 每 个 数字 图 像 有 243 x 351 (= 85 293) 个 像素 ， 每 6 位 像素 有 64 级 灰 度 。 除 了 图 10- 
26a 是 正 峭 度 以 外 ， 所 有 图 像 的 计算 峭 度 都 是 负 的 。 图 10-26a 是 人 工 生 成 的 做 北 式 瓷砖 图 案 ， 
图 10-26d 是 均匀 分 布 的 噪声 图 像 ， 图 10-26e 是 二 元 周期 检验 图 案 ， 其 余 的 图 像 都 是 自然 景象 。 
这 六 幅 图 像 用 一 个 非 正 交 满 秩 6 x 6 混合 矩阵 4 人 为 地 混合 在 一 起 ， 这 个 矩阵 4 在 MATLAB 中 用 
区 间 [0, 1] 上 的 随机 均匀 分 布 生成 。 特 别 地 ， 如 果 我 们 定义 图 10-26a ~ {分 别 为 数组 P， P,, …， 
P。， 使 用 式 (10-124) 的 ICA 扩 充 法 ， 执 行 下 面 的 过 程 ， 就 能 得 到 一 组 “观察 信号 
生成 每 一 个 源 信和 号， 





w(j) < 


s,=vec(P,) s, = vec(P,) 
s, = vec(P,) s, = vec(P,) (10-130) 
s,=vec(P,) ss = vec(P,) 
组 成 源 信 号 矩阵 : 
S = [s1, $2, $3 $4, S5, Sel (10-131) 





O -ARRIERE F 40 Amin (Ilo) — ww- Dll IWO + wG- Dib} <e, Hee = 10 为 … 个 合理 的 值 。 
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其 中 SEE I., 
组 成 观察 信号 矩阵 : 
X=AS" (10-132) 

其 中 XE 只“ >?) A, ERREXA E EEA RRMA BEK. MERET 
vec 操 作 MAE AR aR XW A RR, RE AB E243 (像素 ) (这 是 
图 10-26 中 初始 图 像 的 行 数 ) 。 图 10-27 给 出 了 所 有 六 个 混合 图 像 。 它 们 的 均值 就 是 每 幅 图 减 去 
它 的 下 一 幅 ， 结 果 就 是 经 过 预 漂白 的 图 像 ， 图 10-28 显 示 了 这 些 预 漂白 的 图 像 。 

一 个 能 实现 上 面 讨论 的 降 阶 FFPA 的 MATLAB mr-file 函 数 ， 它 的 停止 参数 设 为 se= 10 “(使 
用 另 一 个 停止 标准 )。 利 用 六 个 预 漂白 的 输入 向 量 v,,v,,…, v6 对 六 个 独立 成 分 图 像 进行 抽 取 ， 
能 较 快 地 达到 收敛 。 对 于 每 一 个 抽取 的 独立 成 分 ， 图 10-29 给 出 了 它们 的 收敛 曲线 。 图 10-30 显 示 
了 抽取 的 独立 成 分 图 像 。 对 于 这 些 图 像 有 几 点 需要 讨论 : 第 一 ， 因 为 源 信 号 的 振幅 信息 不 能 
保留 ， 所 以 图 10-30 中 每 个 抽取 独立 成 分 图 像 的 输出 灰 度 级 都 调整 为 64 级 灰 度 。 第 二 ， 注 意 到 
输出 图 像 的 顺序 与 图 10-26 中 的 初始 源 图 像 不 同 。 第 三 ,注意 到 图 10-30a、d、{ 分 别 是 图 10-26e、 
b、c 的 “ 负 ” 图 像 。 这 是 由 于 ICA 的 含糊 性 造成 的 (如 10.8.1 节 所 解释 的 )。 图 10-31 显 示 了 消除 
符号 含糊 的 三 幅 图 像 的 “ 反 转 ”图 。 第 四 ， 注 意 到 图 10-30c、b 不 是 图 10-26f、b 的 准确 复制 ， 
原因 是 ， 至 少 部 分 原因 是 图 10-26 中 的 原始 图 像 的 相互 独立 没有 经 过 测试 。 总 之 ， 把 图 10-30 中 
的 三 幅 负 图 像 反 转 之 后 ， 使 用 降 阶 FFPA 分 离 最 后 得 到 的 独立 成 分 图 像 还 是 非常 好 的 。 图 10-32 
给 出 实现 降 阶 FFPA 的 MATLAB 函 数 ffpica.m。 在 FFPA 中 对 分 离 很 必要 的 非 线 性 是 三 次 方 
非 线性 ， 在 图 10-32 中 可 以 看 到 (从 结尾 数 第 5 行 代码 )。 在 这 段 程序 中 ， 一 个 独立 成 分 的 最 大 
循环 次 数 设 为 nax_iteration = 1000。 还 要 注意 在 图 10-32 中 函数 对 数据 进行 了 必要 的 预 
漂白 。 因 为 4 = h， 即 独立 成 分 数目 等 于 观察 信号 数目 ， 所 以 ,没有 对 数据 进行 “压缩 *。 如 果 
有 必要 估计 独立 成 分 的 数目， 那么 必须 修改 图 10-32 中 所 示 的 降 阶 FFPA 程 序 。 


Ics ”符号 BEG) 
(1) 10 
(2) 6 
6) 
(4) 
(5) 
(6) 





min{{lw{) — wG— Dl iw) + wo— Dilz} < € 
40 *+xO 
—_ j A A 





选 代数 
图 10-29 ”用 降 阶 FFPA 抽 取 每 个 独立 成 分 的 收敛 曲线 
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function [output] = ffpica(mixed_signal, max_iteration, epsilon) 


% Fast Fixed-Point Independent Component Analysis 
% (Deflation Method) 

X = mixed_ signal; 

[num_IC, num sample] = size(X); 


% Remove the mean of row vectors 
meanX = mean (X’)'; 
X =X - meanx * ones (1,aize (X, 2)); 


% PCA prewhitening of the data 

covX = cov(X’, 1); % covariance matrix of X 

[E, D] = eig(covXx); 

whitening matrix = inv (sqrt (D)) * E’; 

whitened_X = whitening matrix * X; % whitened signals 


% Calculate the ICA using the fixed point algorithm 
B = zeros (num_IC); 
for i = 1:num IC 
w= rand(num_IC, 1) - 0.5; % Initialize the weight vector 
we=w-B* B’ * w; 
wew/ norm(w); 
w_old = zeros(size(w)); 
for j = 1 : max_iteration 
wew-B*B’ * w; 
w= Ww/ norm(w); 
if norm(w - w_old) < epsilon | norm(w + w_old) < epsilon 


B(:, i) sw; 
W(i,:) =w' * whitening matrix; 
break; 


u = whitened_X’ * w; 
w= (whitened_X * (u .^ 3)) / num_sample - 3 * w; 
w=W/ norm(w); 
end 
end 
output = W * mixed_signal; 





图 10-32 ”执行 降 阶 FFPA 的 MATLAB 函 数 ffpica.m 


10.9 可 加 噪声 中 的 正弦 曲线 的 谱 估 计 


对 给 定 随 机 信号 的 功率 谱 估 计 是 信号 处 理 的 一 个 基本 问题 。 如 果 所 记录 信号 的 跨度 相对 
较 长 ， 则 运用 著名 的 传统 伟 里 叶 分 析 可 得 到 信号 频谱 的 准确 图 像 。 换 名 话说， 只 要 记录 的 信 
号 足够 长 ， 利 用 离散 传 里 叶 变 换 很 容易 得 到 信号 的 频率 表示 形式 。 但 是 ， 在 许多 实际 应 用 中 ， 
需要 估计 时 间 跨 度 短 的 信号 的 频谱 。 在 这 种 情况 下 ， 傅 里 叶 分 析 就 不 再 准确 了 ， 我 们 必须 寻 
找 另外 的 方法 。 如 果 信 号 不 稳定 、 或 需要 对 频谱 快速 估计 、 或 者 收集 长 的 信号 序列 受到 限制 ， 
那么 很 自然 就 提出 了 对 时 间 跨 度 短 的 信号 频谱 估计 问题 。 

在 本 节 中 ， 我 们 检验 PLSR ( 见 9.5 节 ) 或 PLSNET ( 见 9.6 节 ) 算法 在 特定 频谱 估计 问题 中 
的 应 用 ， 在 附加 噪声 下 对 正弦 信号 进行 估计 。 虽 然 这 个 问题 有 一 定 的 局 限 性 ， 但 它 又 常常 需 
要 进行 分 析 ， 因 为 它 在 实践 中 很 重要 。 应 用 表明 :估计 加 性 噪声 下 正弦 频率 与 估计 平面 电磁 
波 的 来 向 (DOA) 之 间 是 等 同 的 [47,48]。 而 DOA 问 题 是 雷达 信和 号 处 理 的 基础 ， 因 此 ， 被 广泛 
研究 [49,50]。 虽 然 非 常 有 趣 ， 但 对 这 两 个 问题 完全 分 析 超 出 了 本 书 的 范围 ， 在 本 节 ， 我们 只 
限于 讨论 频谱 估计 的 一 个 方法 ， 并 且 用 这 个 方法 替代 经 典 的 傅 里 叶 分 析 是 可 行 的 。 


10.9.1 问题 描述 
考虑 一 个 信号 有 K 个 正弦 分 量 ， 受 加 性 噪声 干扰 。 设 定 信号 是 以 采样 频率 人 进行 采样 ， 整 
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个 过 程 中 样本 总 数 为 N。 信 和 号 的 第 ;个 样本 可 表示 为 下 式 ; 
w= Ña cod 2 和 gag (10-133) 


其 中 at、f 和 分 别 是 未 知 正弦 分 量 的 振幅 、 频 率 和 相位 ， 如 (i) 是 加 性 噪声 分 量 。 谱 估计 就 是 
要 确定 式 (10-133) 给 出 的 复合 正弦 信号 的 未 知 参 数 。 如 果 样 本 数 较 多 ， 则 各 正弦 分 量 相互 
正 交 ， 在 这 种 情况 下 ， 由 信号 的 传 里 叶 变 换 就 能 得 到 功率 谱 估计 的 准确 值 : 


“|S aie 


S(w) 是 功率 谱 估 计 值 ，w 是 正规 化 的 频率 。 但 是 ， 如 果 样 本 数 较 少 ， 式 (10-134) 所 提供 的 功 
率 谱 估计 方法 就 不 能 得 到 足够 分 辩 率 ， 我 们 需要 寻找 另外 的 方法 。 还 要 注意 式 (10-134) 是 
问题 的 一 般 方 法 ， 它 设 利 用 式 (10-133) 信号 的 特殊 形式 的 优势 。 

虽然 式 (10-133) 看 起 来 还 不 太 明 显 ， 但 对 未 知 正弦 参数 的 估计 可 以 简化 为 对 其 频率 的 
估计 。 一 旦 频率 知道 了 ， 它 的 振幅 和 相位 就 很 容易 确定 。 为 了 更 明确 ， 我 们 重 写 式 (10-133) 
如 下 : 


2 


S(w) = Uw (10-134) 











et? Nhs HOI eI h H+0, | 
u(i) = yas + Hi) 

(10-135) 

(lae) e path ty y (Lg e) er gi 

= 一 a,e e +i 

DE j Hee) 20) 

或 

uli) = S (A, eit foi + Ape Plt) + Hi) (10-136) 


=l 


如 果 正 弦 信 号 的 频率 知道 了 ， 每 个 有 效 样本 都 可 写 为 式 (10-136)。 它 的 向 量 矩 阵 形式 如 下 : 


4 
u(1) eAlf) ua, PIKO EIR u PIKI : WL) 
u(2) ei thither a elm 1h) e PMA fs 32 ee PUK Ih)? Ax 3(2) 
: |-| : : Alt]: (10-137) 
u(N) EPIRIN ePIDN PARSON e-ink/ FN : ON) 
A; 
或 者 写 为 一 个 更 简洁 的 形式 如 下 : 
U=@a+u (10-138) 


FEPPUER™™', PECK, aEc**!, vER', 假定 N>2K， 系 数 集合 (41) 可 以 作为 式 
(10-138) 线性 方程 组 的 一 个 解 。 例 如 ， 式 (10-138) 中 系统 的 最 小 二 乘 解 可 由 下 式 给 出 ( 详 
见 8.3 节 ); 
a=(" p) -GD (10-139) 
式 (10-139) HER EERE DIR, BI: 
rank(®) = 2K (10-140) 
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n = eID (10-141) 
和 
py = em 人 (10-142) 
现在 矩阵 惠 可 重 写 为 下 式 ， 
r, fk Fa rx 
和 (10-143) 
n ro ri rx 


从 式 (10-143) 我 们 看 出 ， 和 矩阵 鲁 的 形式 是 范 德 蒙 德 (Vandermonde) 矩阵 ( 详 见 A.2.19 节 )， 
由 于 对 任意 的 i 和 /来 说 ，r; 关 r;， 所 以 矩阵 鲁 是 满 秩 。 


10.9.2 频率 估计 问题 的 PLSR 解 
假定 正弦 振幅 和 相位 可 按照 式 (10-139) 估计 ， 我 们 再 看 频率 估计 问题 。 为 了 得 到 这 个 
问题 的 PLSR 解 ， 设 定 过 滤器 结构 由 图 10-33 给 出 。 过 滤器 可 以 执行 单 步 预测 式 (10-133) 中 的 


时 间 序 列 {x( 让 } 的 函数 。 它 的 输出 是 第 i 个 样本 信号 值 和 从 它 前 面 M 个 样本 得 到 的 预测 值 之 间 的 
差 值 9 即 3 


M 
e(i) =u -AD) =u) - Y uli- m w, (10-144) 


m 





e(i) 
图 10-33 ”对 时 间 序 列 进行 单 步 预测 的 横向 过 滤器 
对 式 (10-144) 进行 z 转 换 ， 我 们 得 到 下 式 : 


M M 
E(z)= voi - > wz] 一 Zo e 一 > wa" (10-145) 


或 
E(z) = U(2)H(2) (10-146) 
其 中 H(z) 代 表 图 10-33 中 预测 过 滤器 总 的 转换 函数 。 此 时 , 假定 对 所 有 的 i= 1,2,--N, RA OOO, 





Ww 
N 
Un 
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ARE RARE ME HEAR, EMMO SiS AUO ZARZA, KERTA: 
U(Z)A(z) = 0 (10-147) 
或 
Ule®)H(e®)=0, Va (10-148) 
由 于 输入 信号 是 正 弥 的 警 加 ， 因 此 频谱 由 离散 分 量 组 成 ， 如 图 10-34 所 示 。 





w, rad/sec 


0 wi wz WK Ws/2 


图 10-34 单 步 预 测 过 滤器 的 转换 函数 


为 了 使 过 滤器 的 输出 为 0 对 所 有 的 i 成 立 ， 过 滤器 转换 函数 的 零 值 点 必须 准确 地 定位 于 正 落 
信号 的 频率 上 。 因 此 ， 估 计 频 率 的 问题 简化 为 寻找 过 滤器 转换 函数 单 步 预 测 的 零 值 点 。 讨 论 
到 现在 ,我 们 一 直 假 定 系 统 无 噪声 。 但 在 实际 应 用 中 ， 出 现 的 附加 噪声 还 是 对 零点 的 位 置 多 
少 有 些 影 响 。 然 而 ， 除 非 噪声 功率 谱 有 跳动 ， 我 们 希望 它 的 影响 尽量 小 。 

式 (10-147) 表明 为 了 估计 正弦 频率 ， 需 要 寻找 预测 过 滤器 的 选择 权 值 。 i = M + 1， 
M+2,…,N 时 ， 重 写 式 (10-144) 得 到 : 


M 
u(M +1)= Ñ uM +1-m)w, +e(M +1) (10-149) 
mst 
M 
u(M +2)= Ñ u(M +2-m)w,, +e(M +2) (10-150) 
y 
u(N) = Sun - mw, +e(N) (10-151) 
或 者 写 为 向 量 和 矩阵 形式 如 下 : 
c=Awte (10-152) 
其 中 : 
c=[uCM+DUAM+2) CN) (10-153) 
uM) uM-l) … u(1) 
uM+1) WM) >> u(2) 
A= (10-154) 


u(N-1) u(N-2) … u(N-M) 


W= [WW Way) (10-155) 
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All e =[e(M +1),e(M +2),---,e(N)]" (10-156) 
估计 式 (10-152) 中 的 选择 权 值 和 在 第 9 章 中 的 处 理 是 相同 的 〈 详 见 9.$ 节 和 9.6 节 )。 使 用 
PLSR 方 法 来 处 理 选 择 权 值 问题 如 下 : 
w=W" BW") ò (10-157) 
HHW, 巨 和 0 是 PLSR 模 型 中 相应 的 矩阵 。8 
一 旦 找到 预测 过 滤器 的 选择 权 值 ， 也 就 找到 了 过 滤器 转换 函数 零 值 点 处 的 正弦 信号 的 频率 。 
但 是 ， 如 前 所 述 ， 由 于 附加 噪声 的 出 现 会 影响 零 值 点 的 位 置 ， 所 以 习惯 上 定义 准 频谱 函数 如 下 : 





sw- = (10-158) 


Je i- Sil 
Dwe 


正弦 频率 可 以 根据 o 的 值 定 位 ， 此 时 式 〈10-149) 中 的 函数 存在 峰值 。 
例 10.10 ”假定 输入 信号 由 如 下 的 三 个 正弦 分 量 登 加 : 





u(i) = cos[2x(0. Bil + c08{ 20. 35)i+ — a [*e05| 2200. lit — zhao (10-159) 
其 中 80G) 是 附加 噪声 分 量 。 假 定 噪 声 是 零 均 值 高 斯 噪声 ， 标 准 偏 差 是 0.4， 本 以 得 到 近似 的 信 
噪 比 (signal-to-noise ratio, SNR) 如 下 : 


(1,1,1) 
S _ 1 tog| 2 -2 2 = 9.7dB (10-160) 
N 0.4 





在 信号 处 理 中 ， 设 定 有 30 个 样本 信号 。 单 步 预测 过 恋 器 的 结构 如 图 10-33 所 示 ， 有 10 个 抽 头 一 
延迟 (tap-delay) 元 素 。 图 10-3$a 显 示 了 在 20 条 曲线 上 运用 PLSR 谱 估计 算法 实验 得 到 的 转换 
函数 的 零点 位 置 ， 用 10 个 PLSR 因 子 估计 过 滤器 的 权 值 。 过 滤器 转换 函数 的 零点 可 以 分 成 两 组 。 
第 一 组 中 的 元 素 是 靠近 单位 圆 的 零点 。 这 些 零 点 与 式 (10-159) 所 给 出 的 正弦 分 量 的 频率 相 
对 应 ， 册 于 存在 三 个 正弦 分 量 ， 图 10-35a 中 的 图 像 表明 每 半 个 单位 圆 有 三 个 零点 聚集 点 。 第 
二 组 由 单位 圆 内 的 随机 位 置 零点 组 成 。 这 些 零 点 的 位 置 由 附加 噪声 的 实际 样本 所 决定 ， 因 而 ， 
因 实 验 不 同 而 不 同 。 其 中 一 条 实验 曲线 的 准 谱 图 像 由 图 10-35b 所 示 。 我 们 看 到 准 谱 函 数 的 峰 
值 点 在 各 个 正弦 分 量 的 频率 处 出 现 。 

PLSR 模 型 的 维 

PLSR 模 型 的 一 个 重要 部 分 就 是 决定 因子 数目 ， 直 观 地 说 ， 随 着 PLSR 因 子 的 增加 ， 我 们 
期 望 单 步 预测 过 滤器 更 准确 。 但 是 ， 预 测 精度 的 提高 可 能 造成 数据 过 适应 。 在 信号 谱 估 计 中 
数据 过 适应 会 造成 伪 峰 值 。 图 10-36 显 示 了 在 不 同 PLSR 因 子 数 下 ， 例 10.10 的 问题 估计 转换 范 
数 的 零点 聚集 图 像 。 当 PLSR 因 子 的 数目 比 单独 正弦 分 量 的 数目 少时 ， 估 计算 法 不 能 很 好 地 进 
行 谱 估 计 。 例 如 ， 在 一 个 PLSR 因 子 的 情况 下 ， 在 单位 圆 附近 只 有 一 个 零点 襄 集 位 置 ， 在 
PLSR 因 子 数 为 2 时 ， 也 是 相同 的 情形 。 在 PLSR 因 子 数 为 3 时 ， 注 意 到 形成 3 个 聚集 与 3 个 正弦 
分 量 的 频率 相对 应 。 更 多 地 增加 PLSR 因 子 会 增加 算法 的 求解 方案 ,但 这 也 造成 数据 过 适应 ， 
当 我 们 用 10 个 PLSR 因 子 时 ， 从 图 10-36d 可 以 清楚 地 看 到 这 一 情况 。 在 这 种 情况 下 ， 注 意 到 有 
一 些 不 在 三 个 聚集 中 的 零点 在 单位 圆 附近 、 其 至 就 在 单位 贺 上 。 在 准 谱 估计 中 这 会 造成 伪 谱 





© 注意 ，PLSNET (参见 9.6 节 ) HATH itt W BO}, 
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峰值 ， 会 看 作 是 信号 频谱 的 附加 分 量 。 


9001 oo 


准 谱 函 数 





. 0 01 02 0.3 0.4 0.5 
实际 部 分 频率 f/f, 
a) b) 
图 10-35 ”应 用 PLSR 进 行 谱 估 计 。a) 例 10.10 中 单 步 预 测 过 滤器 的 转换 函数 的 零点 位 置 。 图 上 显示 了 20 个 
独立 实验 得 到 的 图 像 ，b) 1 个 实验 中 得 到 的 规范 化 准 谱 图 像 。 规范 化 使 图 像 的 最 大 值 是 1 





-1 -0.5 0 0.5 1 





实际 部 分 实际 部 分 
c) ， d) 
图 10-36 单 步 预 测 器 转换 函数 的 零点 位 置 数 是 PLS 因 子 的 数目 的 函数 。a) 1 个 PLS 因 
F, b) 2 个 PLS 因 子 ，c) 3 个 PLS 因 子 ，d) 10 个 PLS 因 子 
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价 。 图 10-36 中 的 实验 结果 表明 ， 同 对 应 的 CLS 相 比 ， 减 少 因子 的 数目 能 增加 估计 的 角 棒 性 。 
在 许多 谱 估计 算法 中 这 是 一 项 常用 的 技术 ， 通 常 指 谱 估计 的 特征 分 析 算 法 。 关 于 这 些 算 法 的 
详细 介绍 和 更 多 的 谱 估 计 技 术 可 参考 文献 [47-50]。 


10.10 其 他 案例 分 析 

本 节 重 点 介绍 两 个 关于 神经 网 络 应 用 的 实例 。 这 些 例 子 说 明 运 用 神经 计算 方法 可 以 处 理 
两 类 重要 问题 。 
10.10.1 从 近 红 外 谱 模拟 数据 估计 葡萄 糖 浓度 


本 例 运 用 人 工 近 红 外 (NIR) 数据 模仿 简单 水 矩阵 中 不 同 的 葡萄 糖 浓 度 [51, 52] ， 使 用 的 
数据 与 9.6 节 中 例 9.4 数 据 基本 一 样 ( 见 图 9-20)。 区 别 仅 是 本 例 中 可 加 噪声 与 以 前 所 使 用 的 不 
同 ( 即 用 不 同 的 蒙特 卡 罗 游 程 生成 数据 )。 数 据 是 怎样 生成 的 和 数据 表示 什么 的 详细 介绍 见 例 
9.4。 图 10-37 和 图 10-38 给 出 了 用 来 生成 数据 的 MATLAB m-file。 





% Generates Synthetic Near-Infrared (NIR) Data | 


ow 


% Spectrum of the component of interest (could be NIR spectrum of 
glucose) 
Spi = .6*gaussd(30,100,15) + .3*gaussd(50,100,70); 
% GAUSSD generates a Gaussian distribution 
% Spectrum of obscuring component (NIR spectrum of water) 
Spo = .8*gaussd(10,100,20) + .6*gaussd(20,100,80); 
A= zeros(200,100); 
for i =1:200 
A(i,:) =i*Spi; 
end 
% Concentrations (could be glucose concentrations) 
p = ones(100,1); 
C1 = 1000*atan(.0001*A*p); 
% Addition of the zero-mean Gaussian noise 
An =A + randn(200,100); 
% Addition of the obscuring component 
Anl = zeros(200,100); 
for i =1:200 
Ani(i:) = An(i,:) + (1000+30*randn) *Spo; 
end 
% Form the Training and Test Data 
% Training Spectra (each row is a NIR spectrum) 
TRAIN = Anil (1:2:200,:); 
% Training Concentrations (target values) 
TRAINC = C1(1:2:200,:); 
% Test Spectra (each row is a NIR spectrum) 
TEST = An1(2:2:200,:); 
% Test Concentrations (target values) 
TESTC = C1(2:2:200,:); 
clear p i A An Ani C1 Spi Spo | 











图 10-37 生成 人 工 NIR 数 据 的 MATLAB m-file, gaussd ph $x eX] 10-38 Aras 
本 例 的 目的 是 比较 下 面 三 种 方法 的 性 能 : (1) CLSR 方 法 ( 详 见 9.4 节 ) , (2) 用 反 向 传播 (BP) 
训练 的 标准 MLP NN ( 详 见 3.3.1 节 ) ; (3) PLS 神 经 网 络 ( 详 见 9.6 节 )。 下 面 详细 介绍 每 种 方法 。 
CLSR 
根据 式 (9-98) 生成 CLS 校 准 模 型 Bas， 即 ; 
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function out=gaussd(d,np,c) 


% out=gaussed(d,np,c) 

% generates a Gaussian distribution 
% out = output distribution 

%d = distance from center 

%np = number of points out contains 


%c = peak center 


d= d/2; 
for k= l:np 

out (k) = exp(-((k-c)/d)*2); 
end 





图 10-38 ”生成 高 斯 曲线 的 MATLAB 消 数 


图 10-39 显 示 了 用 于 建立 CLS 校 准 模型 的 100 个 训练 光谱 中 的 25 个 。 运 用 这 个 模型 和 测试 数据 ， 
另外 100 个 光谱 (看 起 来 与 图 10-39 所 示 数 据 相 同 )， 即 预测 (估计) 的 葡萄 糖 浓度 由 下 式 给 出 


(10-162) 


Ciest CLS ~ = Ajab fCLS 


人 工 NIR 谱 


规整 化 振幅 





05 10 20 30 40 50 70 80 90 100 
样本 分 量 (频率 ) 
图 10-39 用 于 三 种 方法 的 训练 数据 。 这 是 全 部 训练 数据 其 中 的 25 个 谱 


式 (10-161) 中 校准 模型 的 性 能 通过 计算 预测 值 的 标准 误差 来 评价 ， 图 10-40 显 示 了 CLS 的 预 
测 结果 ， 由 CLS 方 法 得 到 的 SEP = 67.1mg/dL。 对 于 无 干扰 的 葡萄 糖 监控 系统 来 说 ， 这 个 值 与 
实际 可 接受 的 值 相 比 有 很 大 的 误差 [51]。 
使 用 反 向 传播 训练 的 MLP NN 
MLP NN 使 用 的 网 络 结构 如 图 10-41 所 示 ， 使 用 MATLAB 神 经 网 络 工 具 箱 (第 2 版 ) 训 练 
MLP NN。 用 函数 initff 设 置 初 始 突 触 权 值 和 偏 置 ， 网 络 中 所 有 三 层 的 激活 函数 都 是 
tansig。MATLAB 中 的 激活 函数 tansig 是 2.3 节 中 提 到 的 双 曲 正切 $ 形 激活 函数 。 使 用 函数 
trainbpx 训 练 网 络 ， 该 网 络 所 有 三 层 的 激活 函数 都 是 tansig。 这 个 MLP NN 训练 函数 由 神 
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经 网 络 工 具 箱 提供 ， 可 自 适 应 调整 学 习 率 参数 。 每 个 训练 回合 训练 函数 trainbpx 都 对 输入 
( 共 100 个 ) 随机 修改 。 初 始 学 习 率 参数 设 为 10“， 动量 设 为 0.9， 平方 误差 和 (SSE) 设 为 10 。 
训练 数据 (输入 数据 即 100 个 光谱 和 目标 值 即 葡萄 糖 浓度 ) 依照 100 个 光谱 振幅 的 最 大 值 
(max_input = 925.3427) 按 比例 缩放 。 由 于 激活 函数 的 限制 必须 这 样 处 理 训练 数据 。 网 络 经 
过 2920 个 训练 回合 达到 要 求 的 误差 目标 。 在 训练 结束 后 ，MATLAB 神 经 网 络 工 具 箱 中 的 
simff 函 数 用 来 预测 测试 光谱 的 测试 浓度 。 在 预测 结束 后 ， 最 重要 的 一 步 就 是 依照 光谱 振幅 的 
最 大 值 ( 即 前 面 缩放 训练 数据 时 使 用 的 max_input = 925.3427) 按 比例 对 测试 浓度 进行 缩放 
调整 。 用 MLP NN 得 到 的 SEP = 9.6mg/d1， 图 10-40b 给 出 了 用 MLP NN 预测 的 结果 。 对 比 图 10- 
40a 和 图 10-40b， 我 们 看 出 回归 结果 有 很 大 的 区 别 。MLP NN 能 有 效 地 从 提供 给 它 的 输入 光谱 
( 见 图 10-39， 葡 萄 精光 谱 “ 隐 含 于 ”信号 ) 中 “学 习 ” 到 “葡萄糖 谱 属性 ”的 本 质 特点 ， 不 同 
的 葡萄 糖 浓度 对 应 于 光谱 振幅 的 相应 谱 信 息 。 现 在 我 们 不 禁 要 问 ， 这 些 结果 还 能 再 提高 吗 ? 


CLS 预 测 ，mg/dl 





a) 


SEP = 9.6 mg/dl 


mg/dl 


神经 网 络 预测 ， 





0 100 200 300 400 500 60 
参考 (实际 ) 浓度 ，mg/dl 
b) 


SEP = 5.1 mg/dl 


mg/dl 


PLSNET 预 测 ， 





0 100 200 300 400 500 600 
参考 〈 实 际 ) RE, mg/dl 
C) 
图 10-40 a) 使 用 CLS 预 测 葡萄 糖 浓度 ，b) 使 用 反 向 传播 训练 的 MLP NN (100/30/1 层 
网 络 ) PUA BRIE c) 使 用 PLSNET (因子 数 为 2) 预测 葡萄 糖 浓 度 
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EIPRE 
输入 层 (100 个 神经 元 ) 第 2 隐藏 层 
A (30 个 神经 元 ) 










输出 尼 
(1 个 神经 元 ) 
(浓度 估计 ) 


图 10-41 ”用 BP 训练 的 三 层 MLP NN 
PLSNET 
PLSNET-C ( 详 见 9.6 节 ) 用 来 提取 训练 数据 (可 能 100 个 ) 的 前 两 个 初始 因数 。 例 9.4 中 应 
用 的 因数 分 析 法 已 经 证 明 两 个 因数 是 最 优 的。 图 9-16 给 出 了 两 个 (因数 ) 阶 股 的 神经 网 络 结 $, 
初始 权 值 设 定 为 零 平 均 、 单 位 方差 的 随机 正 态 分布 数 。 学 习 率 参数 心 、 几 和 上 .分 别 设 为 : 


By = 700 一 (10-163 ) 





和 

Hp = u, = 0.05 u, (10-164) 
训练 10 000 个 回合 后 ， 网 络 收敛 到 图 10-42 所 示 的 权 值 装载 向 量 。 这 些 值 看 起 来 与 图 9-20e 所 示 
相似 。 第 一 个 权 值 装载 向 量 与 图 9-20a 所 示 的 水 光谱 有 相似 的 性 质 。 由 测试 光谱 预测 测试 浓度 
时 ， 使 用 PLSNET-P 与 提取 权 值 装载 向 量 { 轧 ,加 } WREE, BL) AVIA BG, Ó. EH 
PLSNET-P 得 到 SEP = 5.1 mg/d1， 图 10-40c 显 示 了 预测 结果 与 实际 葡萄 糖 浓 度 。 对 比 三 种 方法 
可 以 清楚 地 看 出 ，PLSNET 比 CLS 回 归 或 用 BP 训 练 的 MLP NN 能 更 好 地 预测 葡 荀 糖 浓度 。 
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图 10-42 由 PLSNET-C 从 训练 数据 中 提取 的 前 两 个 初始 权 值 装载 向 量 
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10.10.2 ”使 用 次 声 数 据 进行 事件 分 类 


本 例 中 将 应 用 次 声 数据 分 类 自然 事件 ， 如 火山 活动 和 山 组 合 波 〈 详 见 10.8.2 节 ) 。 
图 10-43a 显 示 了 1982 年 爪哇 Galunggung 火 山 爆发 的 四 信道 信号 (在 波束 形成 之 前 ) 的 一 组 记 
录 ， 这 些 信号 是 在 南极 洲 的 Windless Bight 用 次 声 传 感 阵列 (FEJ) 记录 的 。 这 些 次 声 信号 
是 以 标准 采样 频率 1Hz 采 样 得 到 的 。 图 10-43b 显 示 了 在 波束 形成 后 的 同一 组 信号 。 用 波束 形成 
处 理 信 和 号 是 为 了 补偿 信和 号 在 阵列 传感器 之 间 的 时 间 延 迟 ( 见 图 10-23) 。 时 间 延 迟 补偿 为 的 是 
使 不 同 信道 的 四 个 信号 能 排列 在 任意 的 时 间 同 步 引用 点 上 (图 10-23 中 的 CHF 1)。 在 应 用 波束 
形成 前 ， 用 适当 数目 的 零 振 幅 时 间 样 本 “又 加 ”原始 时 域 信号 ， 为 的 是 确保 在 信号 调整 过 程 
中 不 会 丢失 信息 。 





时 间 样 本 
a) 





0 200 400 600 800 1000 
时 间 样 本 
b) 
图 10-43 a) 1982 年 爪哇 Galunggung 火 山 爆 发 的 波束 形成 之 前 ， 来 自 南极 洲 Windless 
Bight 的 次 声 传感器 的 四 信道 信号 集 ，b) 经 波束 形成 后 的 a) 中 的 四 个 信号 


使 用 一 组 包含 152 个 次 声 信号 的 数据 来 训练 和 测试 用 BP 训练 的 MLP NN[53-55]。 这 152 个 
信号 由 28 个 火山 事件 (VOL) 和 10 个 山 组 合 波 (MAW) [56, 57] 组 成 。 在 这 些 火山 事件 中 ，6 个 
来 源 于 墨西哥 的 El Chichon 火 山 爆 发 ，22 个 来 源 于 爪哇 Galunggung 火 山 爆发 ， 两 组 火山 次 声 数 
据 都 记录 于 1982 年 。1983 年 记录 于 南极 洲 的 Windless Bight 的 MAW 对 应 于 新 西 兰 山脉 的 方位 
波段 。 对 于 这 两 种 事件 (VOL 和 MAW) 的 每 一 个 ， 都 包含 来 自 F 阵 列传 感 器 的 四 个 信号 。 
152 个 信号 分 为 一 个 训练 数据 集 [76 个 信号 : 56 个 VOL (124-39 HE] Chichon 和 44 个 来 自 
Galunggung) 和 20 个 MAW 信 号 ] 和 一 个 测试 数据 集 ( 另 一 半数 据 ) 。 当 数据 分 类 用 作 训 练 和 测 
试 时 ， 四 信道 信号 是 合 在 一 起 使 用 的 。 
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如 图 10-43b 所 示 ， 经 波 东 形成 后 的 “原始 ”次 声 数据 要 用 语音 辨识 系统 中 常用 的 方法 进 
行 预 处 理 [58]。 虽 然 这 两 种 现象 是 完全 不 同 的 ， 但 它们 的 性 质 有 相似 点 ， 例 如 ， 虽 然 在 信道 
(或 传播 媒介 ) 和 频率 范围 明显 不 同 ， 但 声 源 上 又 有 些 相 同 点 。 如 在 火山 爆发 和 人 类 语音 之 间 
就 有 相似 点 。 为 了 产生 特征 向 量 来 进行 训练 和 测试 ， 用 下 面 的 步骤 对 原始 信号 进行 预 处 理 。 

数据 预 处 理 步 骤 

1. 从 信号 中 消除 (RA) 均值 。 

2. 对 信号 进行 汉 明 窗口 处 理 。 

3. 计算 信号 的 功率 谱 密 度 (PSD). 

4. 对 PSD 应 用 叶 耳 频率 规模 变换 [59]。 这 是 通常 用 于 语音 信号 的 信号 倒 谱 自 适 应 调整 [47]， 
特别 应 用 于 语音 辨识 。 对 于 前 1 步 的 PSD S(k) (Kk 是 离散 频率 )， 按 照 下 式 进行 改变 : 

S,,(k) = aln[BS(k)] 


其 中 a = 1125, B= 0.0016。 这 些 都 应 用 于 哮 耳 频率 语音 数据 的 标准 值 (E). 
5. 对 于 前 1 步 给 出 的 S。( 口 ， 进 行 离散 反 余 弦 变 换 [47] 得 到 ， 


2mkn\ mn-012…N_1 
NJ 





1 N-I 1 
x„(n)= WV > S,,(k) cos 


其 中 N 是 时 域 样本 的 总 数 ，x,ER'*"。 

6. 对 序列 x (n) 求 导 ， 得 到 x (n)。 

7. 把 导数 序列 x (n) 和 倒 频 序列 x,, (n) 连接 起 来 ， 组 成 扩展 序列 x = [x (lx, (1)]。 

8. 对 序列 x 的 每 个 元 素 取 绝 对 值得 到 x as = lehlo 

9. 再 对 xz 取 对 数 得 到 x abs, In = IN (Xf, abs) o 

10. 最 后 ， 对 得 到 的 整个 数据 集 关 于 最 大 振幅 按 比 例 缩放 。 

应 用 PLSR ( 详 见 9.5$ 节 ) 对 特征 空间 进行 预 分 析 以 确定 多 频 倒 频 系 数 和 关联 导数 系数 的 最 
佳 组 合 。 最 佳 组 合 是 15 个 倒 频 导数 与 25 个 倒 频 系 数 。 图 10-44a 显 示 了 所 选 的 两 个 火山 爆发 的 
特征 表示 向 量 ， 图 10-44b 显 示 了 所 选 的 MAW 的 特征 表示 向 量 。 

由 于 信号 经 过 了 预 处 理 ， 形 成 了 训练 和 测试 数据 集 ， 即 {win, Crain) {Ares Cesto RE 
hian 和 A 的 每 一 行 都 包含 40 个 特征 向 量 ， 和 矩阵 eiisio 和 ciew 由 神经 网 络 企图 分 类 的 特定 事件 的 合 
适 目标 向 量 组 成 。 二 元 目标 向 量 建立 如 下 : 

,01 = 火山 H [0, 1)’ = MAW 

使 用 三 种 不 同 的 事件 分 类 器 ， 并 对 它们 的 性 能 进行 了 比较 。 这 三 种 分 类 器 分 别 是 ， 用 BP 
训练 的 MLP NN、PLSR 和 RBF NN, 

MLP NN 是 一 个 40/80/2 层 网 络 ， 用 二 元 S 形 (对 数 S 形 ) 激活 函数 。 每 训练 一 次 随机 化 输 
入 特征 向 量 ， 目 标 误差 设 为 SSB = 0.1， 初 始 学 习 率 参数 设 为 0.0001， 动 量 调整 参数 设 为 0.9， 
使 用 MATLAB 神 经 网 络 工具 箱 函 数 trainbpx[60] 训 练 MLP NN。 通 过 随机 调整 输入 向 量 改变 
网 络 。 网 络 的 初始 权 值 和 偏 置 用 MATLAB 神 经 网 络 工具 箱 函 数 ijnitff 设 置 ， 用 函数 simuff 
仿真 网 络 进 行 测试 。 

因为 网 络 使 用 的 目标 向 量 是 二 元 ， 不 是 标量 ， 所 以 不 能 使 用 9.5 节 的 PLSR 算 法 。 而 是 使 用 
PLSR 算 法 的 一 种 更 普遍 的 形式 ， 它 允许 多 分 量 目标 。 使 用 MATLAB 中 化 学 统计 学 工具 pls 孜 
数 [61] 和 函数 plspred 进 行 阶段 (phase) 测试 。 另 外 ， 函 数 plspress 用 来 评价 PLSR 分 类 器 
的 性 能 。 这 个 MATLAB 函 数 计算 预测 残留 方 误差 和 (PRESS)， 可 以 看 作 是 9.4 节 提 到 的 标准 
预测 误差 的 一 般 形式 。 由 于 用 多 分 量 目标 代替 了 标量 ， 所 以 现在 必须 使 用 PRESS。 对 于 所 有 
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的 目标 值 来 说 ， 它 是 预测 方差 的 加 权 和 。 总 共用 15 个 PLS 因 数 保留 来 进行 预测 是 比较 适宜 的 。 
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图 10-44 a) 典型 的 火山 爆发 次 声 特征 向 量 ，b) 典型 的 MAW 次 声 特 征 向 量 。 两 个 特征 
向 量 数据 集 都 由 15 个 倒 频 导数 和 25 个 倒 频 系数 组 成 


反 向 传播 神经 网 络 结果 (91% 正 确 分 类 的 事件 ) 


RBF 神经 网 络 结果 (92% 正 确 分 类 的 事件 ) 


+ 
Hh 
MAW (+) Ha +O + 





+ 
= 火山 
0 
火山 : 52/56 和 MAW: 18/20 
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图 10-45 用 BP 训 练 的 MLP NN、PLSR 和 RBF NN 的 分 类 结果 
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RBF NN 由 54 个 隐 神 经 元 组 成 ， 高 斯 径 向 基 范 数 的 扩展 参数 等 于 0.775， 目 标 SSE 设 为 0.1。 
使 用 MATLAB 神 经 网 络 工具 箱 函 数 solverb 设 计 网 络 ， 使 用 函数 simurb 进 行 阶段 测试 。 

图 10-45 显 示 了 使 用 三 类 分 类 器 的 结果 。 用 三 种 分 类 器 对 事件 分 类 的 准确 率 基本 上 是 -- 样 ， 
但 用 BP 训练 的 MLP NN 比 另外 两 种 方法 显示 出 了 更 强 的 鲁 棒 性 ， 也 就 是 说 ， 用 这 种 网 络 形成 
的 聚集 要 比 用 RBF NN 和 PLSR“ 更 紧 竣 ”。 


习题 


BA 10.1 假设 有 一 个 二 阶 离散 时 间 系统 ， 它 的 :变换 传递 函数 由 下 式 给 出 : 


Y(z) z—0.1 

U(z) z? -0.8999 + 0.08 

采样 周期 7, = 2n/1 000s， 系 统 的 实际 (真实 ) AER A = 2。 因 此 ， 实 际 的 参数 向 量 

@ = [一 0.8999, 0.08, 1, —0.1]". 

(a) 设 系 统 的 输入 序列 u(k) (1024 个 样本 ) 是 零 均 值 、 单 位 方差 的 高 斯 噪声 (R010245 
样本 取 自 零 均 值 、 单 位 方差 的 高 斯 分 布 )。 在 此 情况 下 ， 用 MATLAB 销 数 dlsim 生 
成 模拟 系统 数据 {u(k), y(k)} 。 

(b) 车 系统 维 数 (过 ) 指定 为 上 = 2， 由 部 分 (a) 中 生成 的 数据 组 成 用 于 训练 和 测试 的 
ARMA 数 据 和 矩阵 ， 用 前 100 个 样本 训练 数据 {@,sa(N), yiwsin(N)}， 用 随后 的 100 个 样本 
组 成 测试 数据 { 蚀 .(N), ya(N)}。 

(c) 利用 PLSR ( 详 见 9.5 节 ) 确定 最 佳 因子 数目 ， 即 利用 由 部 分 (b) 得 到 的 训练 和 测试 数 
据 ， 进 行 独立 检验 因子 分 析 找 到 系统 的 “真实 ” 维 数 。 运 用 9.5 节 给 出 的 PLSR1 校 准 
算法 和 PLSR1 预 测算 法 (方法 2)。 

(d) 生成 最 后 的 测试 数据 集 ， 即 ， 最 后 数据 集 = (@,(N; A), yy(N; 月 }， 其 中 /证 根据 部 分 
(c) 的 结果 确定 的 系统 维 数 的 估计 值 。 从 这 个 最 后 数据 集 确定 用 二 PLSR1 预 测算 法 
(方法 1) 的 参数 向 量 。 

(e) 应 用 训练 数据 画 出 初始 系统 的 输出 图 像 。 在 同一 幅 图 上 画 出 PLSR1 预 测算 法 (方法 
2) 应 用 训练 数据 和 由 部 分 (c) 确定 的 系统 维 数 得 出 的 离散 时 间 样 本 。 

(f) 使 用 PLSNET-P 代 赫 PLSR1 校 正 算法 重新 对 以 上 部 分 做 一 次 ， 确 定 系统 的 权 值 装载 
向 量 、 装 载 向 量 和 回归 系数 。 确 定 参数 向 量 并 把 得 到 的 结果 同 前 面 得 到 的 参数 向 量 
进行 比较 。 

(g) 如 果 系 统 是 可 简化 的 ， 就 只 应 用 PLSR1 校 验算 法 和 PLSR1 预 测算 法 (方法 1)， 对 部 
分 (b) 生成 的 初始 测试 数据 集 确定 参数 向 量 。 

设 定 传 递 函 数 由 下 式 给 出 ， 重 复 问 题 10.1 的 所 有 步 又 。 

Y(2) 1 

Ulz) 22-2405 

在 部 分 (b) 假定 系统 维 数 (过 ) 指定 为 n = 4, 

一 个 非 线 性 系统 由 下 面 的 差分 方程 给 出 ; 

y,(k) = 0.2y,(k) +0.5y,(K -D+y,k-2)+ flu(k)] 


H(z)= 





H(z)= 





其 中 
f@) = 4sin(4u) + 





btu’ 
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10.4 


10.5 


可 以 看 出 ， 动 态 系 统 与 10.6.2 节 描述 的 模型 1 相对 应 。 

(a) 证 明 系 统 是 稳定 的 ， 而 且 对 于 任意 的 有 界 输 入 序列 都 有 相应 的 有 界 输出 序列 (BIBO 
稳定 标准 )。 

(b) RERS) 是 未 知 的 ， 用 下 面 的 串 行 - 并 行 模型 设计 一 个 神经 网 络 辨识 器 : 

Sk + 1) =0.2y, (k) + 0.5y,(k— 1) + y, (k= 2) +N[u(k)] 

其 中 NI 是 由 SISO 的 RBF NN 进行 的 映射 。 在 隐藏 层 中 取 不 同 的 神经 元 数目 进行 实 

从 ， 在 辨识 过 程 中 ， 用 区 间 [ 一 2, 2] 中 均匀 随机 分 布 的 输入 。 以 模型 训练 区 间 以 外 的 输 

入 测试 模型 的 性 能 ， 并 评价 模型 。 

(c) 使 用 MLP NN 重新 做 部 分 (b)。 

考虑 一 个 多 路 信号 传播 的 非 线性 传输 信道 的 例子 。 假 设 由 输入 /输出 方程 表示 的 信道 能 

近似 如 下 : 

y(k) = 2arctan{0.5[x(k) — 0. x(k — 1) + 0.4x(k — 3)]} + vík) 

Bp u(k) 是 信道 携带 的 白 噪声 。 图 10-46 给 出 了 一 个 用 于 补偿 非 线 性 信道 的 非 线 性 均衡 

as Ht) Bil. 

(a) 假定 vb 是 零 均值 ， 标 准 方差 o = 0.1 的 高 斯 白 噪 声 。 要 求生 成 随机 双 极 输入 序列 ， 
然后 把 上 面 的 方程 用 于 非 线性 信道 ， 生 成 相应 的 输出 序列 。 

(b) 对 于 图 10-46 的 均衡 器 结构 图 ， 训 练 神经 网 络 来 实现 均衡 过 程 ， 用 RBF 或 MLP NN 都 
可 以 。 用 不 同 结构 、 不 同 规模 的 网 络 进 行 实验 。 如 果 要 求 均衡 器 在 多 路 变换 的 数量 
和 延迟 随时 间 改 变 情况 下 能 正常 工作 ， 上 应 该 选取 哪 种 神经 网 络 结构 ? 

(c) 求 出 用 于 均衡 器 结构 的 最 小 延迟 选择 数 ? 并 加 以 证 明 。 

(d) 如 果 数 据 位 速率 为 100kbits/s， 期 望 的 最 大 多 路 延迟 是 504s ， 估 计 实 现 均衡 功能 的 非 
线性 均衡 器 所 需 的 选择 数 。 


ui— M+1) uG-M+2) u(i-1) u(i) 





by 


图 10-46 用 于 神经 网 络 的 非 线 性 均衡 


本 题 我 们 准备 宵 分 离 两 个 信号 。 第 一 个 是 零 均 值 方 波 信号 ， 第 二 个 是 区 间 [ 一 1, 1 中 均 
匀 分 布 的 噪声 信号 。 这 些 信号 可 用 下 面 的 MATLAB 程 序 代码 产生 。 





% Generate Two Signals 
t=0:0.001:0.199; 

% Deterministic Square Wave 
si=square(2*pi*30*t); 

% Impulse Noise in the Interval [-1, 1] 
g2=2* (rand(1,200)-0.5*ones(1,200)); 
% Plot Figures 





so 


Ean 





wa 
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subplot (2,1,1), plot(t,s1), axis({00.2 -1.5 1.5]) 
title(‘Square Wave’), xlabel (‘Time (sec) ’) 

ylabel (‘Amplitude’) 

subplot (2,1,2), plot (t,s2), axis({0 0.2 -1.51.5]) 
title(‘Impulse Noise’), xlabel(‘Time (sec) ‘) 
ylabel ‘Amplitude’ ) 





信号 s1、s2 是 源 信 号 。 应 用 混合 矩阵 
0.2258 0.3686 
-0.1013 0.1264 


~ 1-0.1416 -0.2588 
-0.2147 0.4781 


生成 四 个 可 观察 信号 不 = 4S， 其 中 XeER"*”” (每 行 一 个 可 观察 信号 ), S= [s1; s2], 

假定 只 有 这 4 个 可 观察 信号 是 有 效 信息 ， 执 行 下 面 的 步骤 : 

(a) 使 用 式 (10-116) 的 批 处 理 方法 预 漂白 可 观察 的 数据 。 为 了 确定 源 信号 的 数目 ， 很 
有 必要 对 可 观察 数据 进行 PCA (即使 数目 很 明显 也 要 进行 这 一 步骤 )。 在 这 个 过 程 
中 ， 必 须 确认 中 的 四 个 可 观察 信号 的 平均 值 已 删除 ， 漂 白 过 程 的 输出 按 比例 调整 。 

(b) 使 用 部 分 (a) 的 结果 ， 运 用 式 (10-111) 的 学 习 规 则 确定 分 离 权 值 矩 阵 W， 其 中 非 线 
性 函数 g(: ) 是 logistic 函 数 的 导数 。 要 用 y(k) 代替 wk)， 按 照 式 (10-108) 调整 学 习 
率 参数 。 使 用 下 面 的 权 值 矩阵 初始 化 你 所 建 的 网 络 

0.9762 -0.2171 

0.2171 0.3782] 


(c) 由 部 分 (b) 得 到 的 独立 成 分 (Bly = Wo) 是 最 初 的 源 信号 (y = $)。 计 算 两 个 分 离 
言 号 和 两 个 初始 源 信号 之 间 的 相关 系数 (计算 四 个 数字 )。 这 些 系数 中 的 其 中 两 个 
要 比 另外 两 个 大 一 些 。 

重新 做 一 次 问题 10.5， 但 现在 需要 分 离 四 个 不 同 的 源 信和 号， 三 个 确定 信号 mh. Ba 

波 和 正弦 波 ) 和 一 个 区 间 [ 一 1, 1] 之 间 的 均匀 分 布 噪声 信和 号。 这些 信 号 可 由 下 面 的 

MATLAB 代 码 产生 : 


W(0) = | 





% Generate Four Signals 

t = 0:0.001:0.199; 

s1 = square (2*pi*30*t); 

% Sine Wave 

s2=sin(2*pi*45*t); 

% Sawtooth Waveform 

s3=sawtooth(2*pi*50*t); 

% Impulse Noise in the Interval [-1,1] 

84=2* (rand(1,200)-0.5*ones(1,200)); 

% Plot Figures 

subplot (4,1,1), plot(t,s1), axis({0 0.2 -1.5 1.5]) 
title(’Square Wave’), xlabel(’Time (Sec) ’) 
ylabel( ‘Amplitude’ ) 

subplot (4,1,2), plot(t,s2), axis([0 0.2 -1.51.5]) 
title(’Sine Wave’), xlabel(‘Time (Sec)’) 

ylabel (‘Amplitude’) 

subplot (4,1,3), plot(t,s3), axis([(0 0.2 -1.51.5]) 
title(’Sawtooth Waveform’), xlabel (‘Time (Sec) ’) 
ylabel (‘Amplitude’) 

subplot (4,1,4), plot(t,s4), axis([0 0.2 -1.51.5]) 
title(’Impulse Noise’), xlabel({‘Time (Sec) ’) 
ylabel (‘Amplitude’) 
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言 号 sl1、s2、s3 和 s4 是 源 信和 号。 利用 混合 矩阵 


0.4501 -0.4815 -0.3237 -0.1471 
-0.2689 0.3214 -0.0943 0.3132 
0.1068 -0.0553 0.4355 -0.4901 
=|-0.0140 0.1154 0.4169 -0.3611 
0.3913 0.2919 -0.0897 -0.2972 
0.2621 0.4218 0.3936 -0.3013 
-0.0435 0.2382 -0.4421 0.1038 


生成 七 个 可 观察 的 信号 对 = 45， 其 中 Xe 针 “(每 一 行 是 一 个 可 观察 信号 ), S = 
[sl; s2;s3;s4]。 假 定 可 用 信息 只 有 四 个 可 观察 信号 。 使 用 下 面 的 权 值 矩阵 初始 化 
你 的 网 络 : 
0.5628 -0.0889 -0.7278 -0.3816 
-0.1329 0.1824 -0.5475 0.8058 
MO) =] 0.6855 0.6051 0.3456 0.2109 
0.4424 -0.7698 0.2259 0.4008 


10.7 用 第 10.8.3 节 给 出 的 ICA 的 快速 国定 点 算法 来 解 问题 10.6， 把 所 得 结果 与 应 用 神经 网 络 
方法 ( 即 式 (10-111) 给 出 的 (Karhunen-Oja) 非 线 性 PCA 子 空间 学 习 规则 ) 的 结果 相 
比较 。 在 收敛 速度 和 结果 的 精确 度 上 两 者 相 比 怎样 ? 你 能 得 出 什么 样 的 结论 ? 

10.8 ”设计 一 个 自 适应 网 络 ( 即 一 个 单 神经 元 处 理 器 )， 用 来 估计 带 干扰 信号 e(7) 的 周期 信号 
y(t) 《( 即 z(D) = y) + e(t)) 的 参数 {0, an, abf B, Ba Bs}. Ak, z0) 是 一 个 可 观察 的 
信号 ， 或 是 一 个 可 观察 的 噪声 信和 号 

y(t) = a, sin(wt) + B, cos(wt) + æ, sin(5wt) + B, cos(5wt) 


+a, sin(7wt) + B, cos(7wt) 


其 中 w= 2af |j- in:。 噪 声 为 零 均值 高 斯 白 噪 声 ， JÆ = 0.1。 在 仿真 函数 时 ， 假 定 采 
ESIE f, = 1 000Hz， 生 成 1025 个 数据 点 。 测 试 你 的 自 适应 网 络 的 性 能 ， 参 数 设 定 为 
a,=f,=1, a =0.5, B,=1/a,, a,=0.25, B,= 1/0, 

10.9 ”对 于 频率 估计 问题 ， 在 10.9 节 中 我 们 用 PLS 方 法 处 理 线性 单 步 预测 过 滤器 的 选择 权 值 ( 见 式 
(10-157) 和 式 〈10-158) ) ， 在 第 9 章 中 ， 我 们 用 PCR 方 法 来 处 理 同 一 问题 ( 见 9.4 节 )。 
(a) 用 PCR 对 估计 频率 公式 化 。 
(b) 写 一 个 MATLAB 程 序 ， 实 现 你 的 基于 PCR 的 谱 估计 算法 。 把 PCR 因 子 数 作为 其 中 程 

序 的 输入 参数 。 

(c) 使 用 例 10.10 给 出 的 谱 估计 问题 测试 你 的 程序 。 
(d) 把 你 的 结果 和 使 用 PLSR 所 得 结果 进行 比较 。 

10.10 在 频率 估计 间 题 中 ， 单 步 预 测 过 滤器 的 长 度 是 很 重要 的 。 假 定 给 出 一 个 四 个 正 苞 信号 
登 加 的 信号 如 下 :; 


u(i) = cos[27(0.1i)]+ eos|2(02) + z] + cos[27(0.387)] + cos[2x(0.4i)] + Qi) 


其 中 必 (i) 是 附加 噪声 信号 的 。 假 设 噪 声 是 零 均值 高 斯 噪声 ， 标 准 偏差 为 0.35。 假 定 在 
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10.11 


处 理 中 有 N = 40 个 可 用 的 样本 信号 。 

(a) 处 理 这 个 问题 的 预测 过 滤器 的 最 小 长 度 是 多 少 ? 

(b) 写 一 个 MATLAB 程 序 ， 用 CLS 处 理 实现 单 步 预测 过 滤器 的 系数 问题 ( 见 式 〈9-98 ) 
和 式 (9-99) )。 人 允许 过 站 器 的 阶 数 〈 延 迟 线 上 的 选择 数目 ) 是 其 中 一 个 输入 参数 。 


(c) 用 你 所 写 的 CLS 程 序 处 理 上 面 所 给 信号 的 正弦 频率 估计 同 题 ， 用 预测 过 滤器 的 不 同 
的 阶 数 进行 实验 。 


(d) Lang 和 McClelian[62] 建 议 过 滤器 的 阶 数 M = N/3。 但 Tuffs 和 Kumaresan163] 经 过 实验 
确定 过 滤器 的 阶 数 M = 3N/4。 在 你 的 实验 中 分 别 运 用 这 些 研究 者 的 建议 值 ， 并 对 它 
们 的 结果 进行 比较 。 

在 介绍 谱 估计 问题 时 我 们 曾 用 到 单 步 预测 方法 。 这 种 方法 能 得 到 如 式 (10-152) 的 回 

归 方程 组 。 通 常 ， 谱 估计 问题 也 能 用 图 10-47 所 示 的 前 向 -- 后 向 线性 预测 器 来 前 明 ， 此 

时 ， 回 归 模 型 依照 如 下 等 式 来 说 明 : 

前 向 预测 误差 : 


fyi) = uli) - > w,u(i ~ k) 


u(i) u(i- 1) u(i-2) 







ui—_ M+1) uGi-M+2) 


bw 人 


b) 
图 10-47 a) 单 步 前 向 预测 过 滤器 ，b) 单 步 后 向 预测 过 滤器 
后 向 预测 误差 : 


PIOR BARRARA HR 464) Fe (bt 407 








M 
bu (= uli M)~ bwin li M +k) 
最 优 标准 设置 为 : 


N 
+ 


J(w) = Sno +p] 


ie 


回归 模型 形式 为 : 


c=Awte 
其 中 
u(M) u(M —- 1) z u(t) 
u(M +1) u(M) ve u(2) 
u(N -1) u(N —- 2) u(N - M) 
Aa OOOO 
u(2) u(3) “uM +1) 
u(3) u(4) “… UM +2) 
uN- M+1) uN- M+2) … uN) 
c= [uM +1), u(M + 2),---, u(N) lu), 2) +, uN -DÝ 
和 


e=[ 放 COM+D fu ND by (M + D, by (ND 
如 果 求 得 过 滤器 的 系数 ， 那 么 可 利用 式 (10-158) 估计 频谱 。 
(a) 使 用 问题 10.10 中 所 定义 的 信号 u(i)， 曾 明 前 向 一 后 向 预测 问题 。 
(b) 使 用 PLSR 技 术 解 决 这 一 问题 。 
(c) 进行 实验 ， 以 确定 前 向 -后 向 预测 过 滤器 的 最 佳 长 度 。 
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附录 A 神经 计算 的 数学 基础 


A1 引言 


为 了 正确 分 析 和 设计 人 工 神经 网 络 ， 需 要 有 坚实 的 数学 基础 。 这 个 附录 有 两 个 目的 ; 介 
绍 在 研究 神经 网 络 时 所 需要 用 到 的 线性 代数 、 非 线性 规划 、 一 般 系统 理论 和 随机 过 程 领域 的 
一 些 必要 的 数学 结论 ， 介 绍 一 些 经 过 选择 的 数学 定义 并 且 约定 了 全 书 中 经 常 使 用 的 符号 。 目 
的 是 要 介绍 神经 计算 的 必 备 的 数学 背景 知识 ， 而 不 关注 数学 表达 式 的 严格 “定理 证 明 "。 通 过 
本 附录 提供 的 资料 ， 读 者 可 以 在 掌握 了 研究 神经 网 络 的 必 备 数学 技能 知识 的 基础 上 进行 工作 。 
A.2 线性 代数 

A21 域 和 向 量 空间 

域 

定义 A.1 一 个 域 殊 包含 一 组 元 素 和 两 个 运算 ， 即 加 法 和 乘法 。 在 .中 定义 的 这 两 个 运算 
需 满足 如 下 条 件 ， 

L 对 于 :中 的 每 对 元 素 c 和 8， 对 应 的 元 素 w + PREF, ZAPF, THA: p 
也 属于 .也 ， 称 之 为 a 与 B 的 积 。 

2. 加 法 和 乘法 都 满足 交换 律 ， 即 对 于 .中 的 任意 a 和 B， 有 a+ B= B+ ac 和 w =p a, 

3. 加 法 和 乘法 都 满足 结合 律 ， 即 对 于 .中 任意 的 a，B，y， 有 (a + 有 ) + y= a + (B+ pM 
(a: P) y= a: (BoD). y 

4. Fe NE ALE, AM EER IMG, B, y, Ha B+ Yala: B+: y) 

5. . 严 中 包含 两 个 特殊 的 元 素 ， 一 个 用 0 表示 ， 一 个 用 1 表示 ， 对 于 .7 中 任意 元 素 4a， 满 中 
a+0=aw 和 1 aza, 

6. 对 于 ,和 中 的 每 一 个 元 素 w， 存 在 一 个 元 素 hE F, Eat 8 = 0。 这 个 元 素 有 称 为 的 负 
元 素 。 
7. 对 于 汉中 的 每 一 个 非 零 元 素 c， 存 在 一 个 元 素 y， 使 得 a . y = 1， 这 个 元 素 7 称 为 0 的 北 
元 素 。 
所 有 的 实数 及 其 加 法 和 乘法 运算 构成 一 个 域 ， 称 为 实数 域 员 。 复 数 及 其 加 法 和 乘法 运算 也 
构成 一 个 域 ， 即 复数 域 5。 对 于 复数 集合 ， 一 个 复数 = x+ jp (其 中 = Jai) 的 乘法 逆 运 算 
可 以 写作 1/o=5/ioP ， 其 中 =a -jp (RAWAM), tole ya? + 6: (PAAR 
量 或 模 )。 与 复数 0 对 应 的 辐 角 定义 为 <0= aglo) = tan (Bla), 

对 于 通常 意义 下 的 加 法 和 乘法 ， 集 合 {0, 1} 是 无 法 形成 域 的 。 这 很 容易 看 出 ， 因 为 1 + 1 = 
2 不 属于 集合 {0, 1}。 然 而 ， 我 们 可 以 这 样 定义 运算 : 

0+0=0 1+0=1 1+1=0 0-1=0 0.:0=0 和 1 .1=1 
SORE, 集合 {0, 1 就 构成 一 个 域 ( 即 ， 集 合 {0, 1 与 定义 的 加 法 和 乘法 满足 上 面 列 出 的 域 的 七 
个 条 件 )。 这 个 域 称 为 二 进 制 数 域 。 

对 于 所 有 形 如 | | 的 2 x 2 的 入 隆 构成 的 集合 ， 其 中 w 和 z 是 任意 实效， 与 条 阵 加 法 和 


一 和 
w 





0 0 
FRE brie ee BO EART, RPR 4) BA SS lo o| 和 单位 和 了 


1 0 
le 但 是 ， 所 有 形式 的 2 x 2 和 矩阵 的 集合 并 不 能 构成 域 ， 例 如 ， 在 一 些 情况 下 乘法 矩阵 的 


逆 并 不 存在 。 

正 实数 集合 并 不 能 构成 域 ， 因 为 正 实数 的 负 元 素 在 该 域 中 不 存在 。 整 数 集合 不 能 构成 域 ， 
因为 乘法 的 逆 运 算 不 存在 。 除 了 A.1 定 义 中 的 第 七 条 性 质 ， 满 足 其 他 六 条 性 质 的 元 素 构 成 的 集 
合 称 为 环 。 多 项 式 集合 也 无 法 形成 域 ， 因 为 乘法 的 逆 运 算 也 不 存在 。 

向 量 空间 

向 量 空间 有 一 个 简单 的 几何 解释 。 例 如 ， 在 普通 的 二 维 几 何平 面 ， 如 果 定 义 一 个 参考 点 
为 原点 ， 这 样 平面 内 每 一 个 点 都 可 以 看 作 一 个 向 量 。 也 就 是 说 ， 在 平面 内 所 有 由 原点 指向 任 
意 一 个 点 的 “箭头 ”( 向 量 ) ， 有 各 自 的 方向 和 数量 。 每 一 个 向 量 可 以 进行 收缩 和 扩大 ， 并 且 
任 两 个 向 量 可 以 相 加 。 但 是 两 个 向 量 不 能 相 乘 (也 就 是 ， 没 有 定义 向 量 乘法 ) 。 这 个 平面 称 为 
向 量 空间 (或 线性 空间 ， 或 线性 向 量 空间 ) 。 向 量 空间 总 是 定义 一 个 特殊 的 域 ， 包 括 数 乘 (向 
量 的 收缩 和 扩大 ) 和 向 量 加 法 。 

定义 A.2 ”一 个 域 .多 中 的 向 量 (线性 ) 空间 记 做 (2, F), BETRE, KANE 
(任意 长 度 )， 一 个 域 F， 和 两 种 运算 ， 即 数 磁 和 向 量 加 法 。 在 . 光 和 .上 定义 的 两 种 运算 必须 
满足 以 下 条 件 : ， 

1. 对 于 向 量 集 .居中 的 每 一 对 向 量 x, 和 x，， 相 应 地 x) + x 也 在 .和 %" 中 ， 称 为 x, 和 x 的 和 。 

2. 向 量 加 法 满足 交换 律 ， 即 对 于 .关中 的 任意 x)，x，,， 有 Xi + Xi = tx, 

3. 向 量 加 法 满足 结合 律 ， 即 对 于 .名 中 的 Xx;，x，，xX3， 有 (Xi1 +X.) +a = x + a +a) 

4. 向 量 集合 . 终 ' 包 含 一 个 向 量 表 示 为 09， 对 于 . 知 中 的 每 一 个 x 满足 9 + x =x。 疝 量 0 称 为 零 向 
量 或 向 量 空间 中 的 原点 。 

5. 对 于 .关中 的 每 一 个 x， 存 在 一 个 向 量 y = 一 x* 属 于. 多， 使 得 x ty = 0。 

6. 对 于 .多 中 的 每 一 个 c 和 ,多 中 的 每 一 个 r， 相 应 地 向 量 cx 也 属于 .多 ， 称 作 c 和 zx 的 数 来 。 

7. 数 乘 满足 结合 律 ， 即 对 于 . 罗 中 的 任意 c, 8 和 .多 中 的 任意 x， 有 ca(px) = (aP)x。 

8. 数 乘 对 于 向 量 加 法 满足 分 配 律 ， 即 对 于 .中 任意 a 和 .多 中 的 任意 xz, x, Aor, + x) = 
ax, + ax,, 

9. 数 乘 对 于 标量 加 法 满足 分 配 律 ， 即 对 于 多 中 的 任意 o, PAS 中 的 任意 x*， 有 (a + px = 
ax + Bx, 

10. 对 于 .多 中 的 任意 rz， 有 1x =x， 其 中 1 是 中 的 单位 元 素 1。 

一 般 而 言 ， 一 个 域 形成 本 身上 一 个 向 量 空间 。 也 就 是 说 向 量 集 中 的 某 向 量 所 包含 的 元 素 
就 是 域 中 的 元 素 ， 如 果 向 量 空 间 所 定义 (的 数 乘 和 向 量 加 法 ) 的 域 是 同一 个 域 ， 那 么 它 满足 
定义 A.2 中 的 10 个 条 件 。( 员 , WAS, HAAMEFBEHABRBSA. REAR, (6, 浴 ) 是 一 
个 向 量 空间 ， 但 是 ( 咒 ， 多 ) 不 是 ， 因 为 不 产生 数 乘 ， 通 常 ， 向 量 的 元 素 是 实数 域 。( 只 (9), Rs) 
ARs), 欠 ) 也 是 向 量 空 间 ， 其 中 针 (s) 表 示 包 含 实 系数 和 独立 变量 s 的 有 理 销 数 域 。 但 是 ，( 和 沉 ， 
外 (s)) 不 是 向 量 空间 。 同 样 ， 定 义 在 区 间 ( 一 %, %) 实 值 分 段 连 续 函 数 形成 实数 域 的 向 量 空间 。 
加 法 和 乘法 按照 通常 方式 定义 。 这 种 向 量 空间 特 称 为 函数 空间 。 

RAIA MBAR, ANA (#8). Gin, (W, 只 ) 表 示 实 数 域 上 的 一 
个 向 量 空间 ， 向 量 的 长 度 为 *。 这 样 ， 这 个 向 量 空 间 就 是 一 个 n 维 实 向 量 空间 。( 客 "， 多 ) 是 1 维 
LEZ, MONG), 叶 (s)) 是 n 维 有 理 向 量 空间 。 在 这 本 书 中 ， 用 .FF "表示.F 域 上 的 n 维 向 量 
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ZA, CATE (CW) ae Vd Da as Be AN AF DR > Pe) Fak AY Vd RATAR. A, PR 是 一 
AS nde SE tea] RZA, R i ES a RE TG E. 

男 一 个 重要 的 向 量 空间 基于 多 项 式 集合 六,{s}， 即 s 的 次 数 不 大 于 nn 的 ( 实 系 数 ) SHAK. 
CRAs), 踢 ) 是 一 个 向 量 空间 ， 其 中 向 量 加 法 定义 为 : 


n n ñ 
Das + dB = AG + B,)s' 
fol i=! dæ! 


BRE LA: 


Ka, Bis YER, 

定义 A.3 Bik (2%, F) 是 一 个 向 量 空间 ， 儿 是 . 攻 的 子 集 ， 那 么 在 向 量 空间 (8, F) 
ZAF, (Y, F) Æ (Z, F) 的 一 个 子 空 间 ， 多 形成 域 . 宛 的 一 个 向 量 空间 。 
A.2.2 和 托 阵 的 表示 和 运算 


矩阵 和 向 量 
一 个 矩阵 是 一 组 元 素 ,， 一 般 元 素 就 是 数值 。 然 而 ,矩阵 的 元 素 也 可 以 是 函数 。 大 多 数 情况 下 ， 


| 矩阵 是 长 方形 的 。 特 殊 情况 下 ， 可 能 为 方 阵 、 向 量 ( 行 或 列 向 量 ) 以 及 标量 。 假 设 4 E RRR 


所 有 的 长 方形 矩阵 为 实数) TR, nx m 维 ， 其 中 为 矩阵 的 行 数 ，m 为 矩阵 的 列 数 ， 即 


a, ap Qn 
A as, an Aim 
an an a 


1X7 ABBE HE BL BP Hic Ben xm, AE 6" Zea APA ENS BBS, REALA = 
lal, .mn。 这 样 ，ay 表 示 位 于 矩阵 第 i 行 第 j 列 的 元 素 。4 E 名“* "在 特殊 情况 下 ， 包 含 如 下 儿 种 情 
m: (1) 如 果 m = n，Ah E RR" 表示 所 有 的 实数 方 阵 ，(2) 如 果 m a1, xe W 表示 所 有 n 个 
实数 的 列 向 量 ，(3) y RO RAR MAND LRT, AN REA € RHF a, 
其 中 j = 1, 2,…, 四， 和 卸 阵 4 可 以 记 成 4 = la, a, +, anlo 

矩阵 (向 量 ) 加 法 和 减法 

HAER” , BER", BACH=ALB, HHCE 入"”。 这 样 ， 两 个 矩阵 必须 有 相同 的 
行 数 和 列 数 才能 进行 加 法 或 减法 运算 。 如 果 x ER, y E 中， 那么 两 个 列 向 量 相 加 或 相 减 
就 会 有 : z = x 土 ，， 其 中 z E 路 ”…。 对 于 两 个 相同 长 度 的 行 向 量 ， 它 们 的 和 以 及 差 的 结果 是 显 

矩阵 乘法 

若 A € RW"”*”"， 其 元 素 记 作 a;，B € RM"*?， 其 元 素 记 作 b,，4 乘 以 B， 有 : C=ABEMN'’, 
元 素 记 作 ci RP RX 轨 ”*?)。C 中 的 每 一 个 元 素 可 以 写作 


m m 
Cx = > a,b, 或 AB= > a 
J= nxp 


MAG PERLE HH BT DAH RA 4 EBAY FARA DF] RA, EEN RER. tE, BA 
没有 意义 ， 因 为 B 有 p 列 而 4 有 n 行 ， 很 明显 不 匹配 。 因 此 ， 和 矩阵 乘法 不 具 可 交换 性 。 但 是 ， 算 
阵 乘法 满足 结合 律 和 分 配 律 。 抑 阵 乘法 的 特殊 情况 就 是 一 个 矩阵 与 一 个 向 量 相 乘 ， 即 ， 对 于 





A 
h 
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AER”, rer, b=AxE R RATED HH KM), 


HEER 
矩阵 4 E 各 …" 的 转 置 记 作 47。 要 转 置 矩阵 4 = [oil,w， 交 换 原 矩 阵 的 行 与 列 ， 即 
A” =[a, bn = [ah ER” (A-1) 
ATER EER RE. 
1. (A'Y =A 


2. A c R”, BER”? (ABY =B'A’' E R>” 
3. (A+B =A" +B" 
IAE, It ARE Ee% {2 4E 
对 角 和 矩阵 是 只 有 对 和 角 元 素 的 方 阵 ， 即 ，( 除 了 对 角 元 素 外 ) 其 他 元 素 均 为 零 。 例 如 ， 若 
A E 中 ”为 对 角 和 矩阵 ， 可 以 记 作 
A = diag[ait, da2, °°, Ayu 


其 中 
a, 0 0 
0 a, - 0 
Aslo .. … 0 
0 0 a 


MRA’ = 4， 那 么 4 称 作对 称 和 矩阵 。 显然 对 角 和 矩阵 是 对 称 的 。 如 果 对 角 和 矩阵 对 角 线 上 的 元 素 都 
是 单位 元 素 ， 那 么 该 矩阵 称 作 单 位 矩阵 。 例 如 ， 一 个 n xn 单位 矩阵 1,, 对 角 线 上 有 n 个 单位 元 素 ， 
其 他 非 对 角 线 上 的 元 素 为 零 ， 即 


了 = - = diag[1, 1, +, 1] =[e,, es, +, e,] (A-2) 
0 1 
RPL BAe; 例如 ， 如 果 j 三 2, 那么 es = [0, 1, 0, wy oy’. 


A.2.3 内 积 和 外 积 
BRASE E ER ye 跟 ” 。 这 两 个 向 量 的 内 积 为 


n 


(y) =x" y= yx = (yx) = È ya, (A-3) 


i=l 


如 果 x 和 y 含 有 复数 元 素 ， 即 x € 2” 1!,y Eg”!， 则 x 与 y 的 内 积 为 : 
(x,y)=X' y=x y= Xi (A-4) 


其 中 x = x" RA BH BP Ana a BH) A CONAN), 1X 
样 对 于 实 连续 国 数 的 向 量 空间 ， 在 区 间 < ! < 上 ， 其 x 与 ?的 内 积 为 : 


二 soxole (A-5) 


Vy, 





(x(t), yD) = 





h 
l fx Hydt = 
ty 


两 个 向 量 x E Aly © W 的 外 积 产生 一 个 秩 为 1 的 n x n 维 和 矩阵 ( 见 A.2.5 节 )， 即 


h 
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xX, XY, XY. 0 MY, 
5 X, X,Y ot X n 

asa | pi a oe a Pe (A-6) 
x XY) Xny2 XnYn 


A.2.4 向 最 的 线性 无 关 
定义 A.4 ika, a;, …, a ER PAREA, Q, 0» …， 0 是 只 中 的 数 集 。 由 向 量 和 
数 形成 一 个 线性 组 合 : 


nt 
b=aa +2,4, + +a an= >a 


如 果 线性 组 合 等 于 零 ， 即 b = 0， 只 有 对 于 每 一 个 w = 0 (i = 1, 2, …, m)， 向 量 集 合 {a} 才 
是 线性 无 关 的 。 然 而 ， 如 果 存 在 一 个 wz035 = 0， 那 么 向 量 集合 {ejj 称 作 线性 相关 。 

定义 A.4.1 Bika, w,，… a ER PRERE, ar O°, 0, ERP KR, a), az，…， 
a, ER"*! 的 所 有 线性 组 合 构成 的 集合 叫做 由 ai, a, …, ww 生成 的 子 空间 ， 记 作 


spanfa ,a a, A {a=a,a,+0,4,+--+a,@,: a4, ER) 


ls<i<m 


如 果 由 向 量 集合 {fa} 形成 n x m 的 矩阵 ， 即 4 = fw, a, e, a JER”, BAAR BAAR 
非 奇 异 矩 阵 时 (参照 A.2.7 节 )， 或 等 价 地 4"4 是 满 秩 的 (参照 A.2.5 节 )， 算 阵 4 的 列 线性 无 关 。 
A E 中" 的 行 是 线性 无 关 的 ， 当 且 仅 当 44 "是 非 奇异 的 (或 44 "是 满 秩 的 )。 


A.2.5 答 阵 的 秩 和 线性 无 关 


定义 A.5 ”和 抢 阵 4 的 秩 是 指 最 大 线性 无 关 列 数 ， 或 者 是 最 大 线性 无 关 行 数 。 乍 阵 的 秩 用 p(4) 
表示 。 如 果 p(4) = min{n, m}， 则 和 矩阵 4 ER" AR, FARA PLAT AE A EBEA 
中 的 最 大 非 奇 异 子 矩阵 ( 方 阵 ) 的 维 数 (A27). 

假设 4 ER", minfa, m} =m， 且 p(4) < m， 那 么 称 矩 阵 4 为 秩 亏 损 。 甜 阵 的 秩 有 时 称 作 
和 矩阵 的 本 质 维 数 。 下 面 列 出 矩阵 4 E 只 "的 一 些 重要 特性 : 

1. p(4") = p(A) 

2. p(A"A) = p(A) 

3. p(AA‘) = p(A) 

4. ZA ER” BER”, Mjo) + e(B)<m + p(AB) 

5. #A E RU”, B ER”, Mp) + p(B)-m<p(AB)<min{ pA), p(B)) ( 西 尔 维 斯 特 不 
等 式 ) 


A.2.6 和 矩阵 的 确定 性 


定义 A.6 ”一 个 对 称 和 矩阵 4 ER”, Rx Ax> 0，Vx ER” (除了 x =0)， 则 称 4 为 正定 
E, Ex Ax <0, MERAH A SHH, BxAx>S0, WAHL SHH (或 非 负 定 ) Ex 4x 
<0, WRAAF A HEH (或 非 正 定 )。 

对 于 对 称 和 矩阵 4 E R” (BN, AT = 4)， 也 可 以 说 如 果 4 是 正定 的 ， 那 么 4 的 特征 值 (参照 
A.2.9 节 ) 都 是 正 实数 。 如 果 4 是 负 定 的 ， 那 么 4 的 特征 值 全 是 负 实 数 。 如 果 4 是 半 正 定 的 ，4 的 
某 些 特征 值 可 以 为 零 (但 不 全 是 零 ) ， 其 余 的 必须 为 正 实数 。 如 果 4 是 半 负 定 的 ，4 的 某 些 特征 
值 可 以 为 零 (但 不 全 是 零 ) ， 其 余 的 必须 为 负 实数 。 如 果 一 个 对 称 矩 阵 4 E 咒 ”…" 既 有 正 特征 值 ， 
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又 有 负 特 征 值 ， 那 么 这 个 矩阵 4 是 不 确定 的 。 对 于 任意 矩阵 4, 44C 和 A4A7 是 半 正 定 矩 阵 。 
HA E R “为 对 称 矩 阵 ， 简 单 记 作 ， 
1.4>0，4 正 定 。 
2.4<0，4 负 定 。 
3.4>0，4 半 正定 (JEM). 
4.4 和 0，4 半 负 定 ( 非 正定 )。 


A.2.7 SERRA 

假设 矩阵 4 E R", p(4) = 症 ， 那 么 4 有 逆 存 在 ， 或 者 说 4 非 奇 异 ， 或 者 说 4 的 列 ( 行 ) 是 
线性 无 关 的 。4 的 逆 记 作 4-… ， 且 44- =4 -14 = 工 。 若 p(4) < n， 则 4 是 秩 亏损 的 ，4 称 作 奇 异 
的 。 正 如 我 们 所 看 到 的 ， 和 矩阵 的 逆 与 A.2.1 节 讨论 域 的 定义 中 数 的 倒数 (乘法 逆 ) 有 着 相似 记 
号 ， 是 其 推广 。 

定义 A.7 非 奇异 和 矩阵 4 E R ENA ARR: 

adj(A) _ [cof(A)]’ 
“TAL OTA! (A-7) 

其 中 adj 全 伴随 ， cof 会 余 因 子 ，|4| 为 4 的 行列 式 (下 面 将 做 解释 )。 EREA E RH FI th 
可 以 记 作 det(4)。 若 |4| = 0， 则 4 是 奇异 的 ( 即 ，4 的 北 不 存在 )。 也 可 以 说 如 果 4 的 行 (或 列 ) 
是 线性 相关 的 ， 或 者 说 4 至 少 有 一 个 零 特 征 值 ， 那 么 4 是 秩 亏 损 的 ， 即 p(4) <n, 
下 面 是 关于 和 矩阵 的 逆 的 一 些 重 要 特性 ,假设 4 ER”, BER CER” uce R”, vE 
RI, 

L(A) =A 

2. (AB) = B'A 

3. (AD! = (A'Y =A 
(4 Cu 4 ) 

l+v Au 

5. (C + DBE) ' = C~'—C7'D(EC'D +B) EC-! 

6. (C-DB`'E) =C + C'D(B -EC 'D) EC 

REA E R ITIER S OMA BREYER. RAM Le SCE AEN 
式 定义 矩阵 的 逆 v 一 个 2x 2 的 矩阵 4 E ROR ATTIC ATC SS: 


A” 








4. (A+uv y'= A`- 


a, A)» 


[Al= 


= AQ. ~ Ahaa 








an an 
3 x 3 的 矩阵 4 E 中 “的 行列 式 可 以 这 样 计算 : 


4, Ay ay 
ay ay A, a3 Aa an 


lAl=la; an ay|= ah ~ dl 13 




















az az Az Ay, 031 ay 








azn è An Qz 


假设 4 E R”, BER", BP RATA — EM: 

1. 若 4 的 任意 一 行 (或 一 列 ) 的 全 部 元 素 为 零 ， 那 么 4| = 0。 
2. [A7] = |A] 

3. |AB| = |BA] = |A||B! 
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a, 0 0 O| la an a, … apn 
an an 0 -> OF JO ay ay >o a, n 
4, Bi an a3 0|=|0 0 ayy … d, | = aana: Aan -JJa 
a 


an ap yg o a 0 0 0 a 

5. FERAE HRP FF HO BEB, WJA =— |B], 

6. 若 和 矩阵 4 的 一 行 或 列 的 每 个 元 素 乘 以 数 E E NB SIEBEB, WIA IBI. 

7. |kA| = k'lAl, 

8. ZIERA — íT (或 列 ) 的 常数 倍加 到 另 一 行 (或 列 ) 得 到 和 矩阵 8B， 则 |4| = |B|。 

9. 车 4 的 两 行 (或 列 ) 相等 ， 则 |4|= 0 [ 即 ， 如 果 4 的 行 或 列 线 性 相关 ， 或 p(4) <n, BA 
|A|= 0], 

10. #£A,, Ay, …, 和 是 4 E RR"*" 的 特征 值 (参照 A.2.9 节 )， 则 |4|= 各。 这 样 ， 如 果 4 的 特 
(HAAS, MAlAl=0, ARH, 

11. 车 p(4) =n (或 所 有 的 列 或 行 线性 无 关 ， 或 [4| 关 0， 或 4 非 奇异 ， 或 4 的 逆 存 在 ) W 
|A~'| = 1A]. 

12. 假设 4 ER" B E R”, C E R”, DER", mRAMDE WMH, 那么 
det(A)det(D —CA~'B) = det(D)det(A —BD™'C), 

$B Ek 

WF-T ARAKI, TREC Se. 这 对 于 解 形 如 4x =b (其 中 4 E 
R= x E R, b E R”) 的 联 立 线性 代数 方程 组 很 有 用 。A4 的 穆 尔 - 彭 罗斯 (Moore 一 
Penrose) J Mt (Rt) 记 作 4*， 有 以 下 和 性质: 

1. A* = (474)-'47 

2. A*AA* = A* 

3. AAA =A 

4. (AA*)’ = AA* 

5. (A*A) = A*A 
车 m = n， 则 4 是 方 了 泗 ， 若 p(4) =n, WA =A, Rm, Him >n ( 超 定 情况 )， 定 义 一 个 
误差 向 量 e cR, {e = 4x 一 5， 同 样 定 义 一 个 误差 国 数 如 下 : 


E(x) - lela Ax -b= 5 (Ax - by" (Ax -b) (A-8) 
对 x 最 小 化 区 (z) ( 即 ，0 多 (x)/9x = 0) 可 以 得 到 正规 方程 组 ; 
A'Ax— Ab =0 (A-9) 
求解 正规 方程 组 ， 若 4 4 是 非 奇 异 的 [ 即 ，p(4) = n] ， 得 到 Ax = bR DH Rki 
x* = (ATA) 'ATb (A-10) 


定义 伪 道 矩阵 ， 即 穆 尔 - 彭 罗斯 广义 逆 和 矩阵 为 4 = (AA) A, WE, x = A‘, Fim < n (RE 
的 情况 ) ， 则 伪 逆 和 矩阵 为 4” = AAA’)  ， 其 中 44 是 非 奇异 [ 即 ，p(4) =m), TAES ik 
矩阵 相关 的 重要 性 质 : 

1. #a +0, (QAY =a 4 

2. (A'Y =A 


un 
O 








wn 
© 
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3. (A'Y = (A’)* 
4. At = (ATAYA" = AAAY 
5, AANA =A 
6. AtAA’ =A" 
7. (AtATA =A 
8. ATAA* =A" 
9. p(A*) = p(A) = p(A’) 
VAI FRAG AE MERERI E 9 (a A SE TR, BD, man, p(A) =n, 4m< 
n, 0(4) = m。 这 个 问题 可 以 通过 定义 伪 逆 矩阵 的 奇异 值 分 解 (SVD) 来 解决 ( 见 A.2.14 节 ) 。 


A.2.8 正 交 矩阵 、 西 矩阵 和 共 罗 向 量 
E X 36 ME fo A HE 


假设 非 零 向 量 集 合 {9g，， qoz, qal, qg ER, i= l, 2, e, No 如 果 问 量 集 合 {g,} 的 每 一 个 向 
量 满足 gg = 0(i 关 站 ， 则 是 正 交 的 。 如 果 向 量 集 是 正 交 的 ， 那 么 


了 0 对 izj -6 
da-l, 对 i=j T Vij (A-11) 


其 中 6 是 克 罗 内 克 记 号 A。 若 定 义 一 个 方 阵 Q 4 {91,q;,…,4,}， 则 Q ER 'PHE RE, 
O'Q = 007 = 二。 复数 构成 的 正 交 和 矩阵 称 作 析 矩阵。 因此 ， 若 @ Eg ERER, WO =I, 
Hho LOS Rs HH BM, ONO =O", ORR BR S(O", BOM 
尔 米 特 (Hermitian) ##. #Q0"=Q"O[1), MRO E 安 ”“" 是 正规 的 。 
正 交 矩阵 的 一 个 重要 属性 是 对 内 积 无 影响 。 例 如 , 假设 0 ERE EME, x,y ER, 
那么 
(Qx,Qy) = (Qx)' Qy = xQ" Qy =x" y =(x,y) 


I Qx ll, =[(Qx)" Qx| = (x7Q"Qx)'? = (x"x)'? =x ll = (xx) 

HHA 

定义 A.8 假设 0 E R EHRE, RP td, ER Fnd, E R", Hd/Qd,=0, AA 
dind jt KF EO (ROEZ) HHH, 

. ( 非 零 ) 向 量 集合 {d， d,, ms da-i}, d; E Rs i= 1, 2, “on, 若 

d’Qd,=0 其 中 [了 (A-12) 

称 为 0 正 交 和 集 。 

从 定义 可 以 看 出 ， 若 Q = 郊 ， 则 共 斩 的 概念 相当 于 正 交 的 意思 。 既 然 这样 ， 若 CO ERVE 
正定 的 (8 > 0) ， 非 零 向 量 集 {do, d, …, d,_1} 是 Q 正 交 ， 那 么 这 些 向 量 是 线性 无 关 的 。 


A.2.9 特征 值 和 特征 向 量 
假设 矩阵 4 E 半 ““， 对 一 个 标量 4 和 一 个 非 零 向 量 v， 者 
AU=Av (A-13) 


则 A 是 4 的 一 个 特征 值 ，v 是 对 应 的 特征 向 量 。 对 于 4 的 所 有 特征 值 和 特征 向 量 ， 标 准 的 特征 值 
问题 如 下 : 
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(AI—A)u,=0 或 (A-ADv,=0 Hebi = 1,2,…,n (A-14) 
当 且 仅 当 
|AI—A| = 0 (A-15) 
时 ， 这 个 方程 组 有 一 个 解 ， 上 式 称 为 4 的 特征 方程 。 

多 项 式 | 和 并 一 4| 的 根 就 是 特征 值 ， 即 {入 }, i = 1, 2, …, n， 倘 车 特 征 值 是 不 同 的 ， 对 于 每 一 
个 特征 值 和 其 相应 的 特征 向 量 满足 (X41 一 4)v; = 0。4 的 非 零 特征 值 对 应 的 特征 向 量 总 是 线性 无 
关 的 。 

一 般 ， 特 征 值 可 以 相同 也 可 以 不 同 ， 既 可 以 是 实数 也 可 以 是 复数 。 然 而 ， 由 于 4 是 实 和 矩阵 ， 
车 有 一 个 复数 特征 值 ， 那 么 一 定 存 在 复数 共 罗 对 。 和 矩阵 特征 值 的 集合 有 时 也 称 为 矩阵 的 谱 ， 
记 作 o(4)， 一 个 特定 的 特征 值 记 作 和 (4)， 即 (4)，i = 1, 2, …, n。 对 于 4 的 不 同 特征 值 ， 如 果 
构造 一 个 矩阵 V = [v v,,…, v,] E 六””， 其 中 的 列 为 特征 向 量 ， 那 么 ， 若 构造 

V'AV=A (A-16) 
矩阵 和 A= diag[A,, 2n …, A], ARDRMEIAZES eet, RAWA., REVERE de ER 
(参照 A.2.10 节 ) 。 对 于 非 奇异 矩阵 4 ER”, Bp(A) =n, 所 有 特征 值 都 是 非 零 的 ， 从 式 (A-16) 
可 以 很 容易 看 出 4 的 特征 值 是 4 的 特征 值 的 倒数 ， 即 4 = diag[1/4, 1/Az =, 1/A,]. 

对 于 含有 相同 特征 值 的 矩阵 4 E 出 ”，4 不 一 定 是 可 对 角 化 的 。 为 了 简单 又 不 失 一 般 性 ， 
假定 4 只 有 一 组 相同 的 特征 值 。m 为 特征 值 的 重 数 ， 则 有 mn， 并 且 ， 若 m < n， 那 么 剩余 的 
n 一 m 个 特征 值 是 不 同 的 。4 的 替 化 度 即 v(4) 表 示 为 ， 

v(A) = n— p(A) (A-17) 
(RIARI—S FRE AmB, RIAC = 1,2, =, m), RA, = A = =A, =A. BAA) =m, Ill 
存在 庆 个 线性 无 关 的 特征 向 量 与 这 产 个 特征 值 相关 。 这 有 时 称 作 完 全 退化 。 与 特征 值 久 = A(k = 
1,2, …, mm) 相 应 的 产 个 线性 无 关 的 特征 向 量 可 以 取 自 下 列 和 矩阵 的 非 零 列 


l | d [adj(M7 — 名 
m-l 
m-1|da ih 


HP BS 7S EREE IHARRA -mA RHE BL (A — Adu; = OG = m+ 1, m 42, =, n), 
BY LA Fn RPE FC He BE IE) YD SH PS EB VC pillar | Rt PTE A 
征 向 量 ， 剩 余 n 一 m 列 对 应 不 同 的 特征 值 相 应 的 特征 向 量 )。 使 用 转换 矩阵 V 可 得 到 : 

Vi-'AV = diag[ À, pv À, Ams is A + 2 o's Anl (A-18) 
可 以 看 出 4 仍 是 可 对 角 化 的 。 然 而 ， 若 v(M 一 4) = 1 (AMEA E), REAME, 但 只 
有 一 个 特征 向 量 与 和 = AQ = =A, = 和 A 对应， 可 以 通过 标准 表达 式 (A 一 4)v = 0 求 得 。 然 而 ， 若 
有 mm 一 1 个 其 他 向 量 与 m 重 特征 值 对 应 ， 则 称 为 广义 特征 向 量 ， 所 有 m 个 向 量 是 线性 无 关 的 。 这 
m 一 1 个 广 闵 特 征 向 量 可 由 以 下 求 出 : 











(AI—A)v,=— v, 
(AI— A)v, =— v, 
(AI—A)u, = 一 由 
: (A-19) 
(ML 一 4)U -1 5 Un- 


(AI — A)v,, 一 一 Un 1 
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Ku FOR PERERA KAT -Aw = 0 求 得 。 剩 余 的 不 同 特征 值 对 应 的 剩余 的 2 一 天 个 特征 向 
量 可 由 方程 (1 一 4)u = OG =m +1, mm+2 用 求 得 。 由 2 个 线性 无 关 的 特征 向 量 集 合 可 以 得 
到 相似 变换 矩阵 Y_ (VAY Bi Sl Sm RE A A) ER, Blan 一 m 列 是 与 不 同 
特征 值 相对 应 的 特征 向 量 )。 利 用 变换 矩阵 六 ， 可 以 得 到 : 


à100 0 0 + 0 
04100 0 0 0 
004 10 0 0 0 
: 1 
V'AV=|0 0 0A 0 0 0 (A-20) 
00 0+ O Ay, 0 + 0 
000+. 0 0 åm 0 0 
0 oO > 
0 0 0 0 0 + 0 4, 


在 A.2.11 节 讨论 关于 1 < vA —A) < m 的 情况 ， 即 ， 当 (XA1 一 4) 的 零度 在 1 (简单 退化 ) 
和 重 数 m (完全 退化 ) 之 间 。 
方 阵 的 迹 定义 为 对 角 元 素 之 和 。 例 如 ，4 E 及 HMA: 


trace(A) = tr(A) = > 


关于 迹 的 性 质 总 结 如 下 : 

1. trace(A) = trace(A’) 

2. BAER" BER™", RI 

trace(AB) = trace(BA) = trace(A’B’) = trace(B"A’) 
trace(AA’) = trace(A”A) 
3. #A,BER™", a BER, Bl 
trace(aA + BB) = a trace(A) + B trace(B) 

4. trace(A)=2",a, = 2% dt, AG = 1,2, …, 站 为 4 的 特征 值 。 

EGA) = | 和 一 和 = 入 + A"! + GA"? 4-4, + 0 为 矩阵 4 © 中 的 特征 多 项 式 ， 
则 A(4) = A" + aA" + A"? +a, Atal = 0。 换 句 话说 ， 每 个 方 阵 满足 自己 的 特征 方 
程 。 这 就 是 著名 的 凯 菜 一 哈密 上 顿 定 理 。 

特征 值 和 特征 向 量 的 一 些 其 他 属性 : 

1. 假设 x 是 矩阵 4 对 应 于 特征 值 4 的 特征 向 量 ， 同 时 4 是 可 逆 的 ， 那 么 x 是 4“' 对 应 于 特征 值 
1/2 的 特征 向 量 。 

2. 车 x 为 4 的 特征 向 量 ， 则 kx 也 为 4 的 特征 向 量 (其 中 是非 零 常量 )， 其 中 x 与 kx 对 应 同一 
个 特征 值 。 

3. 矩阵 和 它 的 转 置 矩 阵 有 相同 的 特征 值 。 

4. 上 三 角 和 下 三 角 气 阵 主 对 角 线 上 的 元 素 是 该 矩阵 的 特征 值 。 

5. 若 x 是 矩阵 4 的 特征 值 A 对 应 的 特征 向 量 ， 则 对 于 任 一 标量 a, x 是 矩阵 4 一 al 的 特征 值 和 一 a 
对 应 的 特征 向 量 。 
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A.2.10 相似 变换 


假设 年 阵 4 CR’, PER”, Keb p(P)=n, = P-L4P， 则 4 和 和 有 相同 的 特征 值 ( 即 4 
与 4 是 相似 矩阵 )， 或 者 等 价 地 ， 它 们 有 相同 的 特征 方程 组 ， 即 ，A(2) = |AI—A| = 0，A(2%)= 
IH-AI=0。 可 由 如 下 证 明 : 
A(à) =i AI - À l=l AI - P'AP =l PAIP - P'AP |= P"'|AT- AIP =0 
E 
A(4)= PIM -AIP=0 ERP, GEP’: 


PP'\AI-A\PP"'=0 = MA)=lAI-Al=0 = A(A)=A(A) 
i i 


在 A.2.9 节 介绍 了 一 个 非常 重要 的 相似 变换 ， 即 V = [vv --, v,]， 其 中 vi(i = 1, 2, …, 9) 是 当 
A E MM" 有 不 同 的 特征 值 时 的 特征 向 量 。 在 式 (A-16) 中 A = diaglA,, A» …, 为] 体现 了 这 个 结 
论 ， 相 似 变换 即 对 角 化 4。 若 4 E 只 "是 对 称 的 ，4” = 4， 则 相似 变换 矩阵 P 有 性 质 P | = P, 
XP = V = [v v2,…, U,] (4 的 特征 向 量 ) PB, VAV = A=diag[A,, A, ts Anlo KEE, AREH 
的 ，V 是 正 交 的 (参照 A.2.8 节 )。 同 样 ， 也 可 以 用 正 交 相 似 变换 矩阵 VY， 把 4 表示 成 如 下 形式 : 
A=VAVT = Daur (A-21) 
称 作 4 的 特征 值 ( 谱 ) 分 解 (EVD)。 对 于 对 称 和 矩阵 4， 最 小 和 最 大 特征 值 分 别 满足 : 
v Av 


和 Anma (A) = max — (A-22) 
ved UU 


V AV 
vv 
还 有 其 他 的 相似 变换 矩阵 使 4 转变 成 特殊 的 形式 。 在 下 一 节 ， 我 们 讨论 这 样 一 种 变换 和 矩阵， 使 
其 变换 成 若 当 〈Jordan) 标准 形 。 

车 两 个 矩阵 通过 一 个 相似 变换 矩阵 相关 ， 那 它们 是 相似 的 。 若 4, B E R"*" 是 相似 的 ， 则 : 

1. |A|=|B| 

2. trace(A) =| trace(A)| (其 中 A HANS RHE). 

3. A' = BBA (k>1). 

4. (A'Y = (BYR AAA (k>1). 

5. AÈ A BE A NA AB ER (k1) 

6. ARMA, SPTAR, BSW, ZRS, SRVNOBEHAN, SAAR, BSN, 
=A, FR (BILA.2.1875), 


A.2.11 若 当 标准 形 


每 一 个 算 阵 本 身 映 射 到 n 维 复 向 量 空间 ， 即 A:( E, ES E" 6), A-TS SAY 
(或 若 当 形 表 示 法 )。 式 (A-16) 中 的 矩阵 A = diag[à,, An =, 各] 就 是 若 当 标准 形 ， 它 是 由 相 
似 变换 矩阵 Y = [vn v2,…, URI, He, ACR "An AEE, Ui = 1, 2, …， 
n) 是 4 的 特征 向 量 。 在 这 种 情况 下 ，A 有 7 个 1 阶 的 若 当 块 。 这 其 实 是 矩阵 若 当 标准 形 的 一 种 
特例 。 

若 当 标准 形 可 以 看 作 是 对 角 撼 阵 块 ， 就 像 式 (A-20) 所 表示 的 那样 。 在 这 种 情况 下 ， 乱 
REA © OR" "有 一 个 特征 值 4 在 v(M1 -4) = 1 重复 了 mm 次 〈( 即 ， 零 度 化 为 1 或 简单 退化 ) ， 剩 余 
n 一 m 个 特征 值 是 各 异 的 。 因 此 ，A4 的 车 当 标 准 形 即 式 (A-20) 4 = Y .4Y， 有 一 个 m 阶 的 若 当 


Amin (A) = min 
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块 (E1) SmRNHIEAS, MAW 一 m 个 车 当 块 均 为 1 阶 的 ， 对 应 不 同 的 特征 值 。 在 
这 种 情况 下 ，v(21 一 4) = 1 的 零度 化 表明 有 m 个 若 当 块 与 m 重 的 特征 值 A 相 对应。 

对 于 完全 退化 的 情况 ， 即 当 v(M-4) =m ( 重 数 )， 式 (A-18) 的 若 当 标准 形 4, = V 'AV = 
diaglA, A, ,入 Amb Amar 和 是 对 角 和 托 阵 ， 即 4 是 可 对 角 化 的 。 对 于 这 种 情况 ， 零 度 化 (MX 一 

565| 4)=m 表 明 有 m 个 车 当 块 与 m 重 特征 值 ^ 相 对 应 。 

Ait, RIERA E N AmE, Kan- m REER RR. VAI -4) = 4 的 
零度 化 表明 与 多 个 特征 值 相 关 的 若 当 块 的 数量 。 若 q = 1， 我 们 说 它 是 简单 退化 的 ， 若 9 =m, 
则 称 它 是 完全 退化 的 。 当 1 < 9 < m， 则 需要 更 多 的 信息 才能 决定 车 当 块 的 结构 {2]。 例 如 ， 假 
WA CR, RRA WA, = A = 和 = = 入 ，m=4。 若 v(AI 一 4) =2， 这 表明 4 的 若 当 标准 形 
有 两 个 车 当 块 。 这 可 能 是 两 个 2 阶 车 当 块 ， 或 一 个 3 阶 的 车 当 块 和 一 个 1 阶 的 若 当 块 ， 即 


A 0 0 


A, = (A-23) 


oo fe 


0 0 
A 1 
OA 


(A-24) 


ooo» 
oo» = 
owr- o 
=> 5o00 


A, = 


0 

A 
A-25 

0 (A-25) 


oc Oo >} 
oz KF © 
一 Oo >o 


0 A 


只 是 把 式 (A-24) MTP SMR BRET. EACE", OOS", OWA AREER BM 
决 于 若 当 块 的 阶 。 如 果 计 算 和 矩阵 4 的 广义 特征 向 量 ， 对 于 V 4Y = 4,， 若 当 标 准 形 总 是 成 立 
的 。 

在 A.2.9 节 我 们 看 到 ， 有 不 同 特 征 值 的 矩阵 是 可 以 对 角 化 的 。 这 些 矩 阵 称 作 非 退化 的 。 如 
果 矩 阵 没 有 完整 的 特征 向 量 集 称 作 退 化 的 。 因 此 ， 对 有 重复 特征 值 且 不 能 对 角 化 的 矩阵 ， 但 
可 以 求 出 它 的 车 当 标准 形 ( 即 ， 块 对 角 和 矩阵 )， 这 些 和 矩阵 称 作 是 退化 的 。 


A212 动态 系统 的 状态 空间 描述 
动态 系统 的 状态 空间 模型 在 控制 系统 设计 分 析 ， 信 号 处 理 以 及 其 他 许多 领域 都 非常 重要 
对 于 时 间 不 变 、 线 性 、 时 间 连 续 的 系统 ， 状 态 空间 模型 可 以 如 下 表示 ， 


A oo 


X(t) = Ax(t)+ Butt) ”其 中 x(1) 8 (A-26) 


和 
y(t) = Cx(t) + Du(D (A-27) 
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其 中 式 (A-26) 是 状态 方程 ， 式 (A-27) 是 系统 输出 方程 ， 系 统 的 动态 方程 经 常 是 指 这 两 个 
方程 。 在 式 (A-26) 中 ， 状 态 向 量 


x(t) = [x,(1), 20, +, x, (DO) ER! (A-28) 
包含 描述 系统 内 在 行为 的 系统 状态 变量 ， 且 
u(t) = [u (t), u(t), =, WDY E R! (A-29) 


是 (控制 ) RAAE, AEW, BER”, ER (A-27) 的 输出 方程 常 作为 测量 方程 
或 观察 ， 其 中 

Y(t) = DD, VADs os YAO ERO (A-30) 
CER AD E€ R*?。 对 于 初始 条 件 集合 x(10) = x 和 定义 的 系统 输入 u(1)， 用 式 (A-26) 求 出 
x(D0， 然 后 代入 式 (A-27) 的 输出 方程 ， 可 以 求 出 系统 的 输出 y()。 式 (A-26) 的 状态 方程 可 
以 如 下 解 出 : 


X(t) = P(t ~ to )xo + f o(t~r)Bu(t)dt t>t (A-31) 


在 式 (A-31) 中 ，q(t -RERA RRE. MFREM TENA, KARE TL 
写作 

b(t - ty) =e (A-32) 
Bl se KAR, TRACERS A ds Hd RRA, BRIS 0, MOM He th 
可 以 写作 : 


F(s)= Alf} = f f(De “dt (A-33) 
0 


C+ jo 


ger} _ i st 
f= BF(s)} = on) JEG: ds 


其 中 积分 为 在 复 平面 内 ， 从 c 一 j% 到 c + jots = c + jw 求 出 ， 其 中 < 是 任意 实数 ， 使 路 径 
s= ct+jo 位 于 F(Gs) 的 收敛 域 31]。 因 此 ， 
QE ~ to) = BPS) Ne n (A-34) 
其 中 ， 
®(s) = (91 一 4) (A-35) 
称 作 预 解答 阵 。 用 式 (A-31) RAR (A-27) 中 的 输出 方程 ， 得 : 


t 


y(t) = COE -to xo+C ‘foe —t)Bu(t)dt + Dult) ¢>14, (A-36) 
下 然 响 应 to 
SY ch y, 


车 式 (4-36) 初始 条 件 向 量 设置 为 零 , 即 xo = 0， 则 输出 可 以 写作 : 
Y(t) = [COE T)Bule)de + Dult) = JICA -DB+ DÒU- DTdr > ty (A-37) 


其 中 
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Cot-1T)B+Dd(t-1t) 对 于 >T 
0 HF i< (A-38) 


hi- 1) FE ABM Py eE, SLE Ha H A R De Ik Hd ERE SE : 


mo-| 


y(t) = f hl- Dur)dr t2ty (A-39) 


它 表 明 对 于 零 初始 条 件 ， 系 统 的 输出 是 系统 输入 与 系统 脉冲 响应 的 卷 积 。 如 果 对 式 (A-39) 
两 边 进行 拉 普 拉 斯 变换 ， 可 以 获得 

Y(s) = H(s)U(s) (A-40) 
其 中 


H a(s) Has) + H, (s) 


_ H, (s) Hp (s) aa H, (s) 


H(s)= (A-41) 


H a(s) H (s) *— H (s) 


RSH Rh RHE, AE, AIPE ee BEDE E bkan EKERI RIN, BI 


H(s) = C(sI - A)'B+ D = C [cof(sI - A) B+ D (A-42) 


1 
det(sI — A) 

定义 A.9 正常 有 理 和 矩阵 及 (s) 的 特征 多 项 式 定 义 为 H(s) 的 所 有 子 式 的 最 小 公分 母 。H(s) 的 
A (也 称 作 McMillan 度 或 Smith-McMillan 度 )， 用 deg[H(s)] 表 示 ， 定 义 为 H(s) 的 特征 多 项 式 
的 次 数 。 

若 H(s) 是 一 个 标量 ， 即 特征 多 项 式 H(s) 简 化 为 H(s) 的 分 母 。 为 确定 特征 多 项 式 和 转换 铺 数 
和 矩阵 的 度 ， 假 定 如 下 : 
2s+1 4s 


s+2 s+2 
S+1 2s+1 


s+2 s+2 


首先 确定 1 阶 子 式 。 它 们 是 矩阵 的 各 个 元 素 , m, AL eg ee, H(s) 的 


s+2 ` s+2 s+2 

二 阶 子 式 是 1/(s + 2)。 因 此 ，H(s) 的 特征 多 项 式 A(s) = ( + 2) ，H(s) 的 度 是 deg[H(s)] = 2, 

在 式 (A-26) 和 式 (A-27) 给 出 了 时 间 不 变 、 线 性 、 连 续 时 间 系 统 的 状态 空间 模型 ， 可 

1. 如 果 4 的 所 有 特征 值 的 实 部 是 严格 的 负数 ， 那 么 动态 系统 是 〈 渐 近 ) 稳定 的 。 同 样 ， 对 
于 一 个 单 输入 单 输出 的 (SISO) 系统 ， 如 果 系 统 的 极点 严格 地 位 于 左 半 s 平 面 ， 那 么 系统 是 
(H) 稳定 的 。 系 统 的 极点 是 分 母 多 项 式 (特征 多 项 式 ) D(s) 的 根 ， 其 中 D(s) 是 变换 国 数 
¥(s)/U(s) = H(s) = N(s)/D(s) 的 分 母 多 项 式 {分子 多 项 式 N(s) 的 根 称 作 系 统 的 零度 ] 。 如 果 4 有 
GERA) 特征 值 ， 其 实 部 是 0， 其 他 特征 值 的 实 部 均 为 负 ， 那 么 这 个 系统 称 作 李 雅 普 诺 夫 稳 
定 (RRR), 

2. 如 果 {4, 如 } 对 是 可 控制 的 ， 那 么 动态 系统 是 可 控制 的 ， 或 者 

o(S) = pIB, AB, A’B, …, A" ”B} =n (A-43) 

其 中 $= [B, AB, A’B, =, A°~B) E RY EFT AE HE 








H(s)= 
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3. 如 果 {4, C} 对 是 可 观测 的 ， 那 么 动态 系统 是 可 观测 的 ， 或 者 
pL) = p[CT ATC’, (ACT, =, (APOC = n (A-44) 
HHL = Ic’, ACT, (ACT, e, (Ę4" CT E RT RE. 
4. 如 果 式 (A-26) 和 式 (A-27) 描述 一 个 开 环 系 统 ， 使 用 状态 变量 反馈 控制 ， 闭 环 反馈 
控制 可 以 应 用 到 系统 中 ， 控 制 规则 如 下 : 
u(t) =— Kx(t) + r(t) (A-45) 
HHK ER" PARAS AE, (NCR 'BARRAGSHA, WRO, IA HR 
系统 是 一 个 跟踪 系统 。 然 而 ， 如 果 r(1) = 0， 那 么 闭环 系统 是 校准 器 。 状 态 变量 反馈 控制 可 以 
用 作 极 点 定位 设计 。 把 式 (A-45) RAR (A-26) 可 以 得 到 闭环 系统 状态 方程 : 


x(t) = (A - BK)x(t) + Br(t) (A-46) 
设计 目的 是 确定 增益 矩阵 及， 这 样 ， 闭 环 系统 的 特征 值 (极点 ) 在 期 望 的 位 置 ， 其 中 
|AI—A + BK| =0 (A-47) 


是 闭环 特征 方程 。 对 于 单 输入 系统 ， 如 果 系 统 是 可 控制 的 ， 那 么 闭环 系统 的 极点 可 以 任意 放 
置 ， 且 增 益 和 矩阵 是 唯一 的 。 

5. 假设 一 个 SISO 系 统 ， 即 x(t) = Ax(1) + Bult), y(t) = Cx(1)+ Dult), A E R”, (RRE) 
有 不 同 的 特征 值 ， 那 么 以 4 的 特征 向 量 构 造 一 个 相似 (等 价 ) 转换 ， 即 P = [Pi p,…, Pp,] E R” 
(前 面 提 及 的 矩阵 Y) [回顾 ;， p(V) =n] ， 利 用 P， 定 义 一 个 新 的 状态 向 量 e) =P lx), E 
x(t) = PEDARA X() = Ax(1)+ Bult) ， 得 到 一 个 等 价 状态 方程 : 


x(t) = P"'APX(t)+ P~ Bu(t) = Ax(t) + Tuft) (A-48) 
A A 
和 等 价 输出 方程 
y(t) = CPX(t) + Duft) = CE() + Dult) (A-49) 
c 


在 式 (A-48), A= P- ,4P 是 一 个 对 角 和 矩阵 ，4 的 特征 值 在 对 角 线 上 《参照 A.2.9 节 )。 因 此 ， 系 
统 的 动态 性 完全 解 碍 。 注 意 这 两 个 等 价 的 系统 有 相同 的 特征 值 ， 两 个 系统 的 输入 和 输出 是 相 
同 的 。 

6. 如 果 像 第 5 项 那样 假设 SISO 系 统 ，{4, B} 对 是 可 控制 的 ， 那 么 存在 一 个 相似 变换 如 下 


Q 
zO = Qx() -| 2 [xn (A-50) 

oa™ 

其 中 
O=[0 … 0 1)[B,AB,A°B,--,A° BY" (A-51) 
S =[B, AB, A’B, =, A” "BEAST RHE, SR RSA (A-50) 的 转换 形式 : 
x(t) = QAQ x(t) + QBu(t) (A-52) 
F 


y(t) =CQ E) + Dutt) (A-53) 
= D 


c 


[s69] 
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其 中 
0 1 0 0 0 
0 0 1 0 0 
A040 
0 0 0 1 0 (A-54) 
0 0 0 0 1 
A, 一 Cn-i 70,2 -0 -aA 
B =QB =(0,--- , 0, 二 (A-55) 
C=Q"C=[6,6,,… ,6,] (A-56) 
D=D (A-57) 
从 式 (A-52) 和 式 (A-53)， 等 价 系统 可 以 表示 为 ; 
X(t) = AX) + Bult) (A-58) 
y(t) = C¥(t) + Dult) (A-59) 


它 是 式 (A-26) 和 式 (A-27) 的 相位 变量 典范 型 ， 对 于 一 个 SISO 系 统 ， 或 是 可 控 典 范 型 。 
式 (A-54) FABRE BRIE Me (或 绅 罗 贝 尼 乌 斯 矩阵 )。 式 (A-54) 中 4 的 特征 方程 
如 下 : 


A(A) =I ÀI- A l= À" + aa + aja? +--+, Ata, =0 (A-60) 

7. 在 第 6 项 中 可 控制 典范 型 的 双重 典范 型 是 可 观测 典范 型 ， 记 作 : 
x(t) = Ax(t) + Bu(t) (A-61) 
y(t) = Cx(t) + Du(t) (A-62) 


其 中 A=A',B=C' [来 自 式 (A-56)], C=B’ [来 自 式 (A-55)], D=D.~ 
A.2.13 向 量 和 和 矩阵 的 范 数 


向 量 范 数 的 概念 是 向 量 长 度 的 推广 。 如 果 假 定 任 一 向 量 x ENR (或 x C6" ') 和 任 一 标 
Baek (或 rE)， 那 么 x 的 任 一 实 函 数 可 记 作 zl， 如 果 满 足下 列 性 质 ， 可 以 定义 为 向 量 
范 数 : 

1. ||x||>0H8||x|| = 0x = 0 

2. |lax|| = lal llxl| 

3.||x, + xl] < lidi + IEAIR (SANS ARF A) 

向 量 x = Di x …, x, AOL, TER (或 p 范 数 ) 定义 为 


n Vp 
"xi, A DE "| (A-63) 


其 中 p eR, 然而 ， Pp 通常 取 正 整数 值 1， 2, nt, GO, 相应 的 范 数 分 别 为 1， 2, nts 无 穷 范 数 。 Lv 
数 的 一 个 经 典 结论 是 赫 尔 德 (Holder) RFA: 对 于 x, YER, A 
1 1 
„yj =x" yl < xi yl, 一 + 一 =1 A-64 
(x.y) xy xll,lly 3*7 ( ) 


式 (A-63) PIC RRL IR (或 绝对 值 范 数 ) 定义 如 下 : 
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Wxil, å Sx (A-65) 
式 (A-63) 的 2 范 数 或 L, 范 数 (或 欧 几 里 得 范 数 ) 定义 如 下 : 
xi, a Dad = (xx)? = (x,x) (A-66) 


用 欧 几 里 得 范 数 ， 柯 西 一 施 瓦 英 不 等 式 可 以 表示 如 下 : 
Kx yj =x" yl < xih yi, (A-67) 


对 于 x, y E REAR (4-64) 赫 尔 德 不 等 式 的 特例 。 无 穷 范 数 或 也 范 数 (或 切 比 雪夫 
(Chebyshev) 范 数 ) 定义 为 : 


Ixl]; = max(|x|, xal, = lx) (A-68) 
负 无 穷 范 数 或 L 。 范 数 定义 为 : 
||xl| .>» = min(|x,|, jx,l, wy Lx) (A-69) 
内 积 生成 范 数 定义 为 
ix lly = (xx) = (Wax) (WaN = (Wx)! (而 xz = [x7 WI We] (A-70) 
相关 范 数 是 加 权 欧 几 里 得 范 数 ， 形 式 如 下 : 
lxll; o> (x'Qx)'? (A-71) 


ApoE”, g =OCO>0。 

单位 向 量 是 范 数 等 于 单位 值 的 向 量 。 把 一 个 非 零 向 量 标准 化 是 通过 用 它 的 范 数 去 除 向 量 
的 每 一 个 元 素 。 因 此 ， 标 准 化 向 量 是 单位 向 量 。 当 正 交 向 量 集 的 每 -一个 向 量 都 是 单位 长 度 时 ， 
称 为 规范 正 交 。 两 个 向 量 x,y ER ZAER E- yl] (取决 于 所 选 范 数 的 类 型 ) 。 

HAER” (4 E%”") 的 范 数 记 作 ||4l|， 是 一 个 实 值 函数 ， 必 须 满足 下 列 条 件 : 

1. ||A|| 20 

2. Al = 0A = 0 

3. 对 任 一 标量 a, |laAll = lel |All 

4. 假 设 4, B ER” (A, B E Z°"), ||A + Bil<|lAll + IBI (三 角 不 等 式 ) 

5. 假 设 4, BER" "(A,BES"*"), |ABl| <All Bll (一致 性 条 件 ) 

一 个 重要 的 范 数 是 矩阵 4 CR" (A CH" "(A = [a], i j= 1,2,…, DIRS ESM 
(Frobenius) 范 数 ， 为 : 

WAIL,.= 全 (A-72) 

可 以 看 出 弗 罗 贝 尼 乌 斯 范 数 PAA AEA (参照 A.2.14 池 ) 。 

导出 第 阵 范 数 可 由 向 量 范 数 导 出 。 每 一 个 向 量 p 范 数 导 出 (或 生成 ) 矩阵 p 范 数 : 





WAx Il 
WAN, = sup ’ = sup ll Ax Il, (A-73) 
xed Hx I, lxi, =! 


其 中 “sup” 意 思 是 上 确 界 ，|l4zll 的 最 小 上 界 。 由 式 (A-73) 可 以 得 : 
llAxll < HAI Ixl (A-74) 





a 
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如 果 一 个 向 量 范 数 与 矩阵 范 数 是 相 容 的 ， 那 么 它 必 须 保持 式 (4-74) 成 立 。 导 出 范 数 总 是 与 
生成 它们 的 向 量 范 数 相 容 。 相 容 性 对 导出 范 数 没有 约束 。 例 如 ， 即 使 欧 几 里 得 范 数 没有 导出 
弗 罗 贝 尼 乌 斯 矩阵 范 数 ， 弗 罗 贝 尼 乌 斯 范 数 也 是 与 欧 几 里 得 向 量 范 数 相 容 的 。 

一 些 有 用 的 导出 范 数 如 下 : 

LLRA (AL ERS) 


an- max ($a, ) (A-75) 


这 是 列 绝对 值 和 的 最 大 值 。 
2. L-E CAL. ETRE): 
Mal. mex Dro | (A-76) 
这 是 行 绝对 值 和 的 最 大 值 。 
3. 谱 范 数 (由 欧 几 里 得 范 数 导出 ): 
14 = lma (4A)? (A-77) 


EAA = 44 的 最 大 特征 值 的 平方 根 。 可 当 作 4 的 最 大 寺 异 值 计 算 (参照 A.2.14 节 )。 
FMA ERA EY”*") 的 谱 半 笃 记 作 o,(4)， 是 4 的 任 一 特征 值 的 最 大 绝对 值 。 这 样 ， 假 
设 4 的 特征 值 为 人 ， i= 1, 2, non, 4 的 谱 半 径 为 ; 


OA) = maxlA| (A-78) 
对 于 任 一 矩阵 范 数 ; 
0,(A)<|lA|| (A-79) 
限定 了 4 的 特征 值 的 春 。 乍 阵 4 的 谱 半 径 的 等 价 表达 可 写作 : 
o,(A)= lim IA” 1" (A-80) 
Gerschgorin #2 [1] PT DASE ft fh EREA EET. 
A.2.14 奇异 值 分 解 
假设 4 E R”, KEHEE 
U = |u, uz, +, up) E R” (A-81) 
V=[v,, v, ,UV,] ER” (A-82) 
存在 ， 得 到 ; 
U'AV = pseudodiag[o,, 0,, *…, 0,] = S (A-83) 
其 中 S$ ER”, 
p= min{m, n} (A-84) 
以 及 o 20,2°"20,20 (A-85) 


因为 矩阵 UV 和 Vv 是 正 交 的 ， 式 《A-83) 可 写作 


A=USV' = youn! (A-86) 


pa 
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PEERAA REDE, HoA =r (最 小 奇异 值 的 指数 )。 若 


O,20,2°° 20,>6,,,=0,,.= °° =0,=0 (A-87) 
那么 可 以 定义 : 
U, AUG,1:r) (A-88) 
V AVG) (A-89) 
S, A Ss(1:r,1:7) (A-90) 


其 中 U, EW, V, ER, S, ER, R (A-88), X (A-89) 和 式 (A-90) 中 所 用 的 符号 来 
自 MATLAB 的 引用 数组 的 方法 。 例 如 ， 在 式 (A-88) H, UC, 1:n) 表 示 选 取 所 有 的 行 ， 这 样 
第 1 个 “:” 和 “1:r” 表 示 取 第 1 ~r 列 。 因 此 ， 式 (A-86) 可 以 写作 


A=U,S,V] = Some! (A-91) 
从 图 A-1 可 以 直接 看 到 5, 和 5S 之 间 的 关系 。 


其 中 ; 012 e RTT (FARE) 
0x e im-rxr (FARE) 
022 e gm-rxa-7 (FERE) 
[e(A) =r] 


a 
| 


图 A-1 矩阵 4 ER"*" 的 SVD 中 ，S, 和 S$S 的 关系 
现在 可 以 很 容易 明白 MATLAB 是 如 何 使 用 矩阵 的 SYD 计算 它 的 秩 了 。 即 ， 甜 阵 4 E R” 
的 非 零 奇 异 值 数目 就 是 矩阵 的 秩 。 根 据 式 (A-86) €: 
AU, = Oi; (A-92) 
A'u, = ov; (A-93) 
其 中 i = 1,2, =, min{m, n}, u; E R” ( 左 奇异 向 量 )，v; eR! ( 右 奇异 向 量 )。 这 与 标准 特 


征 值 问题 相似 (参照 A.2.9 节 )。 
A ER”, A'=A,A>0, SVD 产 生 一 个 特例 。 在 这 种 情况 下 ， 奇异 值 是 4 的 特征 值 ， 8N: 


A, 0 


S=- 2 = diag[A, he, A, ] = A ER” (A-94) 


RHA M> = >A, > ORARI R FEIA (因为 4 是 对 称 的 )， 相 应 的 特征 向 量 集合 vw 是 正 交 的 
(因为 4 是 对 称 的 )，i = 1, 2,…, n。 此 外 ,，U =V， 邑 ， 左 右 奇异 向 量 是 相同 的 。 为 了 不 失 一 般 
性 ,假设 p(4) = n。4 的 SVD 已 给 定 ， 即 4 = USV”， 可 以 得 到 : 


A'A=(VS'U (USV") = VS'UTUSV' = VS' SV" =VS°V" (A-95) 
I s? 


然而 ， 由 式 (A-94), S?= A’, R (A-95) 可 以 写作 ， 
A'A=VA'V'=AA' 因为 UO=V (A-96) 
这 是 47I4 (或 447) 的 特征 值 的 分 解 (参照 A.2.10 节 )。 现 在 很 容易 明白 如 何 用 矩阵 的 SVD 计 算 


574 


575 





430 HRA 神经 夺 算 的 数学 基础 





谱 范 数 (参照 A.2.13 节 )。 即 ，4 码 的 最 大 奇异 值 是 入?，4 的 谱 范 数 是 /六 = 和。 然而 ， 这 可 由 
4 的 SVD 求 出 ; BI, AR BK ay HA AO, = ALR (A-94) J. 
矩阵 4 的 弗 罗 贝 尼 乌 斯 范 数 [ 见 A.2.13 节 ， 方 程 (A-72)] 由 它 的 SVD 决 定 。 弗 罗 贝 尼 乌 
斯 范 数 的 另 一 种 形式 为 ， 
Al, = [trace(A"A)]'” = [trace(AA’)]'” (A-97) 
如 果 根 据 SVD 来 表示 4， 即 4 =USV', BAK (A-97) 可 以 写作 : 
1 4 =[trace(A’A)]’”? =[trace(AA" )]'” = ftrace(S SY) = [trace(SS 7 


( 
o3 Bo, 
= | trace T = Do 
. hn 


(回忆 P = min{m, n}) 

重新 回顾 -一 下 A.2.7 节 中 和 矩阵 伪 逆 的 问题 ， 这 涉及 解决 联 立 线 性 代数 方程 组 4x = 5 的 问题 ， 
其 中 4 E MR" x ERD, b E RR"”!。 如 果 根 据 式 (A-91) 以 矩阵 的 SVPD 来 表示 4， 即 ，4 = 
US.V/, ter = p(A), 式 (A-8) 的 误差 函数 可 以 写作 : l 


1/2 (A-98) 


A (x)= 5! Ax-biß= SHV SIS Vx -x'V,S'U'b+ 7"b (A-99) 
对 式 (A-99) 的 (x) 求 向 量 x 的 偏 导 ， 令 其 等 于 零 ， 得 : 
VS'SVIx-VS Vb=0 (A-100) 
式 (A-100) 两 边 左 乘 VV 得 S'SV'x=S WU hb ， 两 边 再 左 乘 (SS) 得: 
V'x =(S'S,)'S'U)b =S-'U'b (A-101) 
现在 对 于 Ax =b， 可 以 通过 式 (A-101) 两 思 左 乘 V,， 求 最 小 二 乘 解 x : 
x =VS-Ub (A-102) 
由 式 (A-102) 的 4 的 伪 逆 为 ; 
A* =V S'U? (A-103) 
然而 ， 式 (A-103) PARANA AAMISVD RAR: 
At =VS‘U™ (A-104) 
其 中 
ste a o| -| S Os Jen 
0 0 0 ， 0 


因此 ，S* 可 以 只 通过 计算 非 零 奇 异 值 的 倒数 得 到 (REGS A), A (A-102) 中 4x = 6 的 
线性 最 小 二 乘 解 可 以 写作 : 
x* = VS*U'b = A*b (A-105) 
A.2.15 矩阵 条 件数 
HEREA 所 六 ”的 条 件数 定义 如 下 : 
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cond,(A) SNANNA' 1, (A-106) 
Htp SEREREK, A EERE. i OR RE BRE R SEBE, AR OP CREE 
AERE., (EIFS OFA, MAERA E R” WL ER Rt, Alt, BROIL: 

cond, (A) =li A Ill A* tl = S (A-107) 

o, 
即 ，4 的 最 大 奇异 值 与 最 小 奇异 值 的 比 ， 其 中 p = minim, n}。 当 函数 cond 用 于 计算 矩阵 的 条 
件数 时 ， 这 就 是 由 MATLAB 生 成 的 条 件数 。 
和 矩阵 的 条 件数 在 分 析 联 立 线 性 代数 方程 组 4x = 5 的 解 的 灵敏 性 时 自然 出 现 。 为 了 简 使 ， 假 

设 4 E 中 ”和 p(4) = n， 如 果 B5 中 存在 舍 入 误差 ， 即 5 + Ab5， 那 么 解 改 为 x + Ax。 因 此 ， 可 以 得 
Hi], A(x + Ax) = (b + Ab), Ax = b 得 : 


AAx = Ab (A-108) 
求解 Ax 得 : 
Ax =A Ap (A-109) 
FAK (A-74) SEE TER TEM, TASIE: 
HAxllsl4 |] [Ad] (A-110) 


式 (A-110) 两 边 除 以 je， 右边 乘 以 再 除 以 | 得 : 
Axl _ HWW AT WADE 











(A-111) 
tx I lxi = bit 
skit. iell =flAxll, Atk, 式 (A-111) 可 以 写作 : 
Arl = Fens y LABI (A-112) 
xl el Hil 


此 外 ， 由 式 (A-74), ATLAS EIA! ixa lx, PREERIAN Axl FIFA 
此 结果 ， 式 (A-112) 可 以 写作 : 





IL Ax Hl 
WANA yl Ab (A-113) 
Ix Il 一 一 一 一 一 1 四 
或 cond( A} 
Í il Ax Il WAbil 
a d(4) 一 一 一 - 
xi cond(A) bl (A-114) 


因此 ， 在 式 (A-114) 中 的 相对 解 误差 小 于 (或 等 于 ) 4 的 条 件数 ， 即 ，cond(4) 乘 


以 相对 问题 误差 ， 其 中 右边 是 上 界 。 如 果 问 题 误 差 记 作 A4 (AN, APMIR HD), AAR 
(A-114) 可 以 变换 成 : 








Wael  cond(A) t24" (A-115) 
lx+ Axl HAI 
车 A 和 5 中 都 存在 微 扰 ， 即 分 别 为 A4 和 Ab， 则 如 下 不 等 式 成 立 : 
I Axi (ABI IAA IN i 
ret © AA en WAN! (A-116) 


A.2.16 DHERA 
{i & FBR a a E RAE Oe E. FE EA H RA. 


A 
~ 
~ 
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矩阵 行列 式 
假设 4 E R B E Re“, C E RX" D E Reem M E MRD x tm Y Eh A 
M A B 
-|e D! (A-117) 
ABZ Hdet(A) #0, Mj 
det(M) = det(A)det(D — CA ` 'B) (A-118) 
假设 4 ER", BER™, C E R”, D E RP, M E ROP mmsy Hy, 
M A B 
= fe D! (A-119) 
#det(D) +0, Mill 
det(M) = det(D)det(A — BD~'C) (A-120) 
对 于 4 和 有 B 方 阵 ， 
deaf 2 det(4)det(C delé ° det(A)det(C A-121 
| cj DO at et c| -aaaeto (A-121) 
BIEBER", CER", ABZ 
I, B 
cel CI |- sei -cP = deur, -80 (A-122) 
oy Ye He E ji 
假设 B E R” HC E R, 那么 
L, Bun) [1 -B . 
n nxm = n nxm (n+mxinem) A-123 
lon a| bn erie (A-123) 
和 
-t 
I, 0 cm = L, 0 cm EM nt (A-124) 
Chun I, =C mxn Ln 
假设 4, BE 吕 和 p(4) = p(B8) =n, AZ 
-i -1 
A 0| -| 4 0 (A-125) 
P B -B'PA' B` 
和 
A -I -1 _ 4-! -1 
2] -|4 -4 2B (A-126) 
0 B 0 B` 
假设 4 E R B E Ree, C E Ren, D E R”, 那么 
A B -1 -l -l _ -i 
_[4 + BAANR -EA (A-127) 
C D -A,F, A, 


MRA, = D-CA 'B ( 称 为 4 的 舒 尔 补 ) 和 4 是 可 逆 的 ， 其 中 E4 = 和 4 'B, F, = C4 “'。 同样 ， 如 
RDFA = 4 一 BD 'C ( 称 为 D 的 舒 尔 补 ) 是 可 逆 的 ， 那 么 
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ay 
-E,A, 


ca 


-ApFp 
E Afp + D” 





(A-128) 
其 中 Es =D 'C, Fp =BD', bbh, RRA, A =D 一 C4 'B, Ap=A-BD C 都 是 可 逆 的 ， 那 么 
Ap =A'+E, AUF, (A-129) 
SY RHE E Ak 
假设 4 ER” BER, CER", HZ 
A) + p(B) = A 0 A 0 
pA) + pl =el 中 < 中 a| (A-130) 
和 


0A 0A 
PAte) =e g ol<o| | 





BC (A-131), 
假设 4 ER”, BER”, CER”, DER”, HARTER, WA 
A B] j I OWA 0 I A'B 
lc p ea 路 p-caallo I | (A-132) 
和 
A B 7 
Ale pl-"+eD-cA B) (A-133) 
车 p = m， 见 式 (A-118), 
假设 4 CR" BER? CER" DER’, PDE MW, 那么 
A B) [I BD'|(A-BD'c 01 Z 0 A-134 
lc lo I 0 p||p“c | (A-134) 
和 
4 B) (A-BD'C 
Ale pl-7+p 一 ) (A-135) 
fin =m, W (A-120), 580 
假设 4 ER" BER” ”, BA 
A 
| <p(A) + p(B) (A-136) 
EAER” BER”, BBA 
pIA, B]<p(A) + p(B) (A-137) 
A217 REARRSM 


PARAS SERRARA hto AM. BBEA E R`, BER", £F 
内 克 积 定义 为 : 
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aB aB © aB 
AlaB aB … aB a 
AO BE rne = CERM (A-138) 
a „B apB … a,,B 
REREN E R, MER", RFA RAE LH: 
N@MA NOI, +1,@M=PEn”™" (A-139) 


克 罗 内 克 和 本 质 上 人 允许 通常 不 适合 求 和 的 和 矩阵“ 相 加 "。 假 定 4 ERW, ES RY 
重要 的 向 量 值 函数 如 下 [4, 5]: 


vec(A) 4 (diaaa p ), (qi2, Ga pa) BCPS apy) (A-140) 
wn ——— 
4 的 第 ! 列 A 的 第 2 列 ANG A 


其 中 vec(4) E Hm"!。 和 矩阵 4 的 第 k 行 可 以 写作 ，A4,:,， 第 k 列 记 和 作 4.。 因 此 ， 式 《A-140) 可 以 
写作 : 
A, 


A ad 
vec(A) 4 ER” (A-141) 


A 


上 面 的 vec 运 算 符 可 以 修改 为 只 选择 方 阵 主 对 角 线 上 的 元 素 。 即 ， 方 阵 N © R AI m A Aa 
可 以 定义 为 : 
vecd(N) A [n,n =, n yer (A-142) 


an 


Bs) Tale, (RICE R, DER” (注意 矩阵 有 相同 的 列 数 )，Khatri-Rao 积 定义 如 下 : 





DOC Ap. \@C.,, D,@C.y, …, DOC ER (A-143) 
一 些 有 用 的 性 质 包 括 克 罗 内 克 积 ， 克 罗 内 克 和 ，vec 运 算 符 和 Khatri-Rao 积 如 下 : 
1. (4®B) = (4'®B") 
2. (A@B)@C = A@(BOC) 
3. (A@B)(D@G) = ADOBG 
4. (QA)®B = A@(aB)， 其 中 a ER 
5. (A + H)@(B + R) = A@B + AOR + HOB + HOR 
6. (A + HB = ASB + HOB 
7. A@(B + R) = A®B + AOR 
8. (NOM) ' =N IGM-' ， 如 果 N 和 M 可 逆 
9. det(N@M) = (detNy"(detM)” = det(M@N) 
10. trace(N@M) = trace(N)trace(M) 
11. (L,@N)(M@I,) = (M@I,)(L,EN) 
12. (N@I,,) = AMOL, FERS: AL — 4S 57 BT ea BL 
13. ALON) = 1, @f(N) 
14. eV ™ = e” Qe” 
15. (1,@z)A = A@z 
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16. AI @z’) = 4@z 
17. vec(A + H) = vec(A) + vec(H) 
18. vec(ADB) = (B'@A)vec(D) 
19. vec(AD) = (1,@A)vec(D) = (D'@I,)vec(A) = (D’@A)vec(I,) 
20. vec(AD) = XfD; ® A, 
21. A"! = A@A( RF A RFA) 
22. AM! = A@A! 
23. (AD)"! = Ap 
24. MQA = (U,@U,)(S,@S,)(V,OV,)’, HHAMAIAMSVD 
M=U,S,Vi Fil A =U,S,V3 
25. trace(ADW) = [vec(A’)]’U,@D)vec(W) 
26. trace(A’H) = [vec(A)]’vec(H) 
27. AQ(D' OF") = (AOD) OF’ 
28. (A@B)(F OG) = AFOBG 
29. vec(AVD) = (D'’©@A)vecd(V), MEV E 中 是 对 角 阵 
30. N@N = AQI, + 1,@A 
31. 假若 ji = 1, 2, …, n 是 N 的 特征 值 相 应 于 特征 向 量 z;; Bp j = 1, 2, …, m 是 M 的 特征 值 相 
应 于 特征 向 量 yy， 那 么 :MN@M) = MN)@BMM)， 其 中 N 和 M 是 非 奇 异 的 。 即 ， 两 个 非 奇 异 矩 
阵 的 克 罗 内 克 积 的 特征 值 由 各 自 矩 阵 的 特征 值 (包含 在 特征 向 量 MN) 和 MM)) 的 克 罗 内 克 积 
给 出 ， 其 中 向 量 的 维 数 为 MN@M),w1、A(N), ANAM) .1!。 另 一 种 可 以 选择 的 表达 方式 是 
NE@M 的 特征 值 为 mn 个 入 B;,， 其 中 i = l, 2, en j=1,2, +, m, 
32. NOM = (N@I,) + (1,@MM) 的 特征 值 为 mn 个 入 + Bp is l, 2,-0.0, 7 = 1,2,…,m， 
( 见 性 质 31)。 
33. N@M 和 N@M 特 征 向 量 分 别 相应 于 特征 值 和 Bj 入; + B, EEO; i=1,2, =, n, j= 
1,2,2, m (WEM31). 
EHER t FB 9 BE A EAn T : 
AER” DER” HER” RER! 
BER” FER” MER” wen 
cen” Germ NERWY” yer! 


zen! 
著名 的 李 雅 普 诺 夫 方程 [6] 为 ; 
AX + XA'=-C (A-144) 
其 中 4 ER”, CER” (C7=CHCSO), XER” (X =XHX>0), AAEM, 
准 方法 ， 这 个 方程 不 能 直接 解 出 下 。 然 而 ， 如 果 先 在 式 (A-144) WARE ERE, 
vec(AX + XA’) =—vec(C) (A-145) 
应 用 性 质 19 和 式 (A-139)， 可 以 把 式 (A-145) Sie: 
(A@A)vec(X) = 一 vec(C) (A-146) 


She ttvec(X), ADAMI Aw, BN, 
vec(X) = 一 (494) 'vec(C) (A-147) 


N 
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所 以 ，4@A 不 能 有 零 特征 值 。 因 此 ， 使 用 性 质 32， 可 以 得 如 下 结论 : 式 (A-144) 的 唯一 解 
存在 的 充分 必要 条 件 是 (4) + (4) 隆 0， 其 中 i, 7 = 1, 2, …, mn。 因此 ， 如 果 4 是 渐 近 稳定 (2 
照 A.2.12 节 )， 式 (A-144) 存在 唯一 解 。 然 而 ， 若 4 是 边缘 稳定 ， 不 存在 唯一 解 。 同 样 ， 若 4 
是 不 稳定 的 ， 有 关于 复 平面 jw 轴 对 称 的 复 共 斩 对 (或 严格 的 实数 ) 特征 值 ， 则 式 (A-144) 没 
有 唯一 解 。 根 据 上 面相 同 的 方法 ， 很 简单 就 可 证 明 : 若 和 (4) + 1(4) 关 0 = 1 2 n, 
Hh ARAMARK), ACS CER”, 式 (A-144) HEX Eg", 


A218 ”实数 和 复数 方 阵 的 重要 性 质 小 结 


下 面 是 对 实数 和 复数 方 阵 的 重要 性 质 小 结 。 

K HE 

如 果 A E R'A = fa], HFLj=1,2, =n), BBA: 
.4 为 对 称 人 47 =A 

AAS MERA = 一 A 

AA fea, =0, Vix j 

. AJ EHAA" = ATA 

AAT ESA! =AHxAx>0, xE RA x40 

. 4 为 半 正 定 (JER) A’ =AHxAx>0, xE R" ' AX 40 
AAEM SA'A =AA' =I 

AHH E SA =I 

. AHHA SA? = 一 I 

10. AJR ZSA =A 

11. AJ ZESA =A 

12. AJRA =0, Hrh3tpE>0 

13. A% LÆ fea =0, Vi>j 

14.A% F=fiea! =0, Vi<j 

an A E R J, E R” nE Wy 


O oo Nn AU fF WN 一 


则 ， 

1. 4 是 哈密 顿 的 全 三 4J=-4=(J4) =JA 

2. 4 是 偶 对 的 sj/ NAY =A '@ATJA =J 

MEA, BER "HFA, M: 

1. p(A) = p(B) 

2. 47 和 B7 全 等 

3. A E eB eA B 全 等 

4. 4 对 称 、 斜 对 称 、 正 定 、 半 正定 人 > 有 8 对称、 斜 对 称 、 正 定 、 半 正定 。 

如 果 4, B E 中 "是正 交 相 似 ， 那 么 4 是 对 称 的 、 斜 对 称 的 、 正 定 的 、 半 正定 的 、 正 规 的 、 
正 交 的 、 对 合 的 、 斜 对 合 的 、 备 等 的 、 三 军 等 的 和 短 零 的 当 且 仅 当 B 是 对 称 的 、 斜 对 称 的 、 正 
<A, PEZA., EM, EZA, HAW, AHA, BS, SH RSS. 

Se 

WRA EZ”, HBA 
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1. 4 是 正规 的 ==44' = A'A 

2.4 是 埃 尔 米 特 的 =4 = A 

3.4 是 斜 埃 尔 米 特 的 全 4 = 一 4 

4. 4 是 正定 的 e>4 = 4 和 x'Ahx > 0， 对 于 x Egr” 

5. 4 是 半 正 定 的 “A' = 4 和 xr Ax>0, Hx Eg) 584 
6. 4 是 单元 的 人 4"4 = AA =I 


A.2.19 模式 化 矩阵 和 特殊 矩阵 


循环 矩阵 
循环 算 阵 是 一 个 方 阵 。 每 一 行 从 第 二 个 元 素 开始 ， 把 上 一 行 的 每 个 元 素 向 右 移 一 列 ， 第 
一 行 第 一 个 元 素 最 终 移动 到 最 后 一 行 最 后 一 个 元 素 得 到 该 方 泗 。 循 环 矩 阵 的 一 般 形 式 如 下 : 


a, a, a, a4 1 a, 
aq, @ 4 4a, a, 
a a a a a 
n-t n 1 2 2 
A= (A-148) 
a, ay} a ai a 3 
a, a, a, d; a 


循环 矩阵 的 性 质 如 下 : 

1. 循环 矩阵 4, ,的 特征 值 如 下 : A, = a, + ar; + ar? + tanri, Ri = l, 2, 0, n, fay, 
Ay, ay °°, ai] 是 4 的 第 一 行 ，r 是 六 = 1 的 一 个 不 同 解 。 相 应 的 特征 向 量 为 = 是 7 六 5 。 

2. 如 果 4 和 8 是 阶 数 相同 的 循环 矩阵 ，o, 8 是 两 个 数量 ， 那 么 ，c4 + BB 也 是 循环 矩阵 。 

3. 车 循环 矩阵 是 非 奇 异 的 ， 则 它 的 逆 是 循环 矩阵 。 

4. 阶 数 相同 的 循环 和 矩阵 4 和 8B 的 积 也 是 循环 矩阵 ， 积 满足 交换 律 ， 即 4B = BA, 

带 状 矩阵 


包含 元 素 [ay] 的 方 阵 A,.。, bj=1,2,…,n， 当 |i 一 j|> x, N 0 
k 是 非 负 整数 0< k 和 7 一 1， 如 果 a = 0， 称 矩阵 4 为 宽度 为 2x + 1 awk 
(ARIE. HARARE — ALIS MULA-2, WREE AT) NZ, 
所 有 非 零 元 素 全 部 位 于 主 对 角 线 和 x 条 上 对 角 线 ，xk 条 下 对 角 0 N 
线 。x = 0 的 带 状 矩阵 是 (严格 ) IRERE, nx n 维 的 宽度 为 nxn 


2k + LAS EAR AGRE UA, BAA EERE 9 I El EE 图 A-2 带 状 矩阵 的 一 般 形式 
特 普 利 英 (Toeplitz) 算 阵 是 带 状 矩阵 ， 每 个 对 角 线 由 相同 的 元 素 构 成 。 然 而 ， 不 同 的 对 

角 线 上 含有 不 同 的 元 素 。 每 一 个 非 零 的 循环 矩阵 是 一 个 满 宽度 的 特 普 利 茨 乍 阵 。 特 普 利 茨 矩 

阵 的 一 个 例子 ， 也 是 循环 矩阵 : 


123 4 5 
5 12 3 4 
A=|4 5 1 2 3 
3.4 5 1 2 
23 45 1 
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= at fe 
Eat AEE BE SR RE (Ck = 1)。 因 此 ， 非 零 元 素 只 在 主 对 角 线 、 上 一 
条 对 角 线 和 下 一 条 对 角 线 (矩阵 中 的 所 有 其 他 元 素 为 零 )。 如 果 我 们 假设 一 个 nx n 阶 三 对 角 特 
普 利 世 和 矩阵 ， 即 T, ,， 主 对 角 线 上 的 元 素 为 x"， 上 一 条 对 角 线 的 元 素 为 8。， 下 一 条 对 角 线 的 元 
素 为 y"，7 的 特征 值 为 : 
ka 


和 = a + 2fBy cos! 
emat os 


) (A-149) 
其 中 k= 1, 2,…, n。 
海 森 伯 格 (Hessenberg) 型 
若 方 阵 的 下 对 角 线 以 下 的 元 素 均 为 零 ， 该 矩阵 拥有 海 森 伯 格 型 。 每 一 个 实 方 阵 4 CH 
与 海 森 伯 格 型 的 和 皇 阵 相合 。 有 具有 海 森 伯 格 型 的 年 阵 的 一 个 例子 : 
2 -4 0 0 0 
3 2 -4 0 0 
4-|0 3 2 4 0 
00 3 2 -4 
0 0 0 3 2 


这 个 矩阵 也 是 一 个 宽度 为 3(kK = 1]) 的 带 状 和 矩阵、 三 对 角 阵 和 特 普 利 茨 年 阵 。 

Ay R Ab a 4E E 

Ar AR 1G A HE EO RA BEA © RYH = [h], i 7 = 1,2,…, n), KERHA = Mi+j 一 上 DD。 
E-A SE A ERB de ERARE AT. 

man (Hankel) 4 

RA REA = [hh i j= 1,2, …, ?是 对 称 的 ， 在 反对 角 线 上 有 相同 的 元 素 。 它 的 基本 形 
A: WLR RE RES HE Ml = [vi 决定 ,k= 1,2,…,n， 即 l 

Ay = Vig (A-150) 

由 于 向 量 v 的 标定 指数 比 其 长 度 要 大 ( 即 >n, 式 (A-150))， 所 以 H 的 元 素 设 置 为 0。 

考虑 一 个 适当 的 有 理 变换 函数 (参照 A.2.12 节 ) : 


= Bos” + Bs" + Bas” teet B28" + Bpis" + Bn 





H(s) n n-l n-2 2 1 (A-151) 
s” +a s taS 44+, 8S +, S +A, 
PRAISE SsHIRERS: 
H(s) = h(O) + AAs! + h(2)s 2 + AG)s 3 十 … (A-152) 
3 (A-152) 的 系数 A 站 ,i = 0, 1,2,3, … 称 作 马 尔 可 夫 和 参数， 可 以 递归 地 写作 ， 
h(O) = By 
AD = -a h(0) + B, 
h(2) = -a,h(1) - a,h(0) + B, (A-153) 


h(n) = -a,h(n~1)- a, h(n - 2) ----- a, hO) + B, 
A(n+i)=~-a,A(nt+i-D-ah(n+i-2)-----a,AW@ 


其 中 i= 1,2,3,-°. BEH, B) (ax 有 B 阶 汉 克 和 尔 和 矩阵 ) 可 以 由 马尔 可 夫 参 数 h(7), (= 1, 2, 3 … 构 造 
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如 下 : 
AD k2) AB) + AD) 
h(2) RGB) h(4) … A(B+)) 
H(a,B)=}h@) M4) h(5) + h( Bp +2) 


(A-154) 


h(a) h(a+l) A(at+2) … h(at+fp-l 
[注意 h(0) 不 能 直接 用 于 构造 H(a, 6)] R (A-154) 中 的 汉 克 尔 年 阵 用 于 控制 理论 找 不 可 约 
简 的 式 (A-151) 给 出 的 转换 实现 函数 。 
TAS BAS HES 
AS REED REV,,.,,, “EAD FI AE FE BEAR RE AD EF Ed kB JE BE (参照 
A.2.12 节 )。 范 德 蒙 德 征 阵 的 一 般 形式 : 


1 1 1 1 

A, A, A, ` A, 
Vela A MR BR (A-155) 

À 1 À 1 Ay x i 


pA, i= 1,2, …, ne EMERI TP RPE. TE Se REA SA h TRA H: 
det(V) = (Ay — A, (Ag 一人) 一 人) 一 AN 一 人) 一 人 (人 一 和) (A-156 ) 
如 果 伴 随手 阵 的 特征 值 是 不 同 的 ， 我 们 从 (A-156) 看 出 范 德 蒙 德 矩阵 的 行列 式 是 非 零 的 。 
阿达 马 (Hadamard) 46 
阿达 马 和 矩阵 [8] 是 一 个 方 阵 吾 E RH = fh), i, f= 1,2,…,n)， 其 元 素 h = 土 1，H 的 行 之 
间 是 相互 正 交 的 。 对 于 特定 的 n 才 存在 阿达 马 第 了 泗 。 具 体 说 ， 它 们 存在 的 必要 条 件 是 n > 2, BP 
么 n 必 须 是 4 的 倍数 。 对 于 阿达 马 和 矩阵 ， 我 们 有 H'H = HH =n, A, CHE: H '=n 五。 
HEE 3B FE 
aR FF EAE RERO, ee: 
A = QBQ"(A = QBQ") (A-157) 
那么 ， 方 阵 A4 和 相同 维 数 的 方 阵 B 是 合同 的 ( 埃 尔 米 特 合同 或 合 取 的 )。 每 一 个 n xn 的 秩 为 :的 
埃 尔 米 特 矩 阵 与 唯一 的 一 个 分 块 策 阵 合 同 : 





1, 0 0 
U=|0 1, 0 (A-158) 
0 0 0 





By th HEHE E. 

惯性 的 西 尔 维 斯 特定 律 : 两 个 埃 尔 米 特 矩 阵 是 合同 的 当 且 仅 当 相合 于 相同 的 惯性 年 阵 ， 
而 且 它 们 都 有 p 个 正 特征 值 ，4 个 负 特 征 值 ，” = n 一 p 一 9 个 零 特 征 值 (p 是 4 的 指数 ,，s = p 一 g 
是 4 的 符号 差 ) 。 

帕斯卡 (Pascal) 26% 

帕斯卡 矩阵 是 正定 对 称 测 试 矩 阵 ， 元 素 为 整数 ， 由 帕斯卡 三 角 构 成 。 帕 斯 卡 和 矩阵 的 有 趣 
HERE: 它 的 逆 元 素 也 是 整数 。 帕 斯 卡 托 阵 已 , E 只 "的 元 素 定 义 如 下 : 
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(+ j= 2) ("77") (A-159) 


”DG-D! \ j-1 
MATLAB, pascal (n ) 将 生成 一 个 n 维 ( 方 ) 帕斯卡 阵 ， 其 元 素 由 式 (A-159) 
所 定义 。MATLAB 中 的 pascal (n, 1) 函数 将 生成 一 个 数 和 一 个 转 置 的 楚 列 斯 基因 子 S (下 三 


角 和 矩阵 ) ， 它 是 对 合 的 ， 即 它 是 其 本 身 的 逆 (S = 站)。 


Kahan 阵 
一 个 Kahan 算 阵 是 一 个 n 阶 参数 为 9， 上 三 角 和 矩阵 K,(6) E 只 “"， 定 义 如 下 : 
lce c 
0 1 c C 
K,(8) = diag[1,s,s°,--,s""J}0 0 1 c (A-160) 
0 0 0 1 


其 中 s = sin(6), c = cos(9)。 对 于 不 同 阶 的 和 矩阵 和 不 同 的 角 96， 可 以 改变 条 件 构成 不 同 的 矩阵 。 
一 般 ， 和 角度 6 越 小 ， 和 气 阵 的 病态 程度 越 高 。 


A.3 多 变量 分 析 的 原理 
A.3.1 集合 和 函数 
集合 
考虑 o 是 一 个 数 或 集合 2 的 元 素 ， 即 c E >。 如 果 元 素 不 属于 集合 2， 我 们 记 作 a gy. 一 
般 我 们 把 集合 的 元 素 写 在 一 对 括号 里 ， 例 如 : 2 = {一 1, 0, 1}， 或 正 整 数 集合 = {1 2, 3，…， 
n, …}。 我 们 可 以 根据 特定 性 质 定义 一 个 集合 ， 例 如 ， 我 们 可 以 说 集合 4 是 所 有 > 中 的 拥有 性 
MPO, BM, 
A= {0€ XPO} (A-161) 
或 可 以 简写 作 : 
A={o:P(o)} (A-162) 
其 中 瞳 指 在 2 集合 。 虽 然 我 们 一 般 认 为 集合 具有 一 些 元 素 ， 但 是 有 (HRA) 一 个 集合 不 含 任 
何 元 素 ， 称 为 空 集 弛 。 若 集合 4 的 每 个 元 素 o 在 集合 B 中 ， 即 cE4 一 caEB8， 则 称 4 是 8 的 子 集 
(或 4 包含 于 B) ， 写 作 4CB。 若 4CB 且 BC4， 则 B = 4。 此 外 ， 对 于 任 一 集合 4， 空 集 纪 的 元 
素 也 是 4 的 元 素 (因为 空 集 里 没有 任何 元 素 ) ， 写 作 忆 C4。 因 此 ， 空 集 是 任 一 集合 的 子 集 。 集 
合 C 的 元 素 或 者 属于 4 或 者 属于 B， 称 为 4 与 B 的 并 集 ， 记 作 : 





AUB=C={o:0EAvoEB)} (A-163) 
车 A 和 B 是 C 的 子 集 ， 我 们 定义 它们 的 交集 为 既 属 于 4 又 属于 B 的 元 素 的 集合 ， 写 作 : 
ANMNB=C={o:0EA AGEB} (A-164) 
若 4 是 B 的 子 集 ， 则 4 的 补 集 4 (相对 于 B8)， 是 不 属于 A 的 元 素 的 集合 。 写 作 : 
A={o EB: 0 A} (A-165) 


CWE. A-A,AUA=B,ANA= 2, ERRERA: 
AUB=ANB 和 ANB=AUB (A-166) 
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若 4 是 实数 集 8 的 子 集 ， 即 A CB， 则 集合 8B 中 最 小 的 元 素 ， 又 大 于 或 等 于 4 中 的 所 有 元 素 ， 称 
为 4 的 最 小 上 界 或 上 确 界 《sup)。 我 们 把 A 的 上 确 界 记 作 : 


supA 或 supo 或 sup{o:oE4} (A-167) 
相反 ， 实 数 集 4 的 最 大 下 界 也 称 为 4 的 下 确 界 (inf)， 是 4 的 下 界 中 最 大 的 ， 记 作 : 
inf4 或 info 或 inf{o:o€ A} (A-168) 


注意 ; info = -sup-a。 

wy 

函数 本 质 上 讲 是 一 个 约束 设 定 规则 。 即 ， 从 集合 X 到 集合 7 的 函数 是 一 种 规则 ， 其 对 于 集 
合 X 中 的 每 一 个 x 都 有 Y 中 的 唯一 的 一 个 0 与 之 对 应 。( 第 卡 儿 积 ) XxY 中 的 有 序 对 (x, fO)) 的 
BS 6 称 作 函 数 /的 图 。 大 多 数 情况 下 函数 定义 为 图 。 此 外 ， 名 词 映 射 经 常用 作 函 数 的 同义词 。 
表示 X 到 7 的 函数 /为 XY, WAXER AR, ] 取 的 值 的 集合 称 作 f 的 值 域 。 函 数 的 值 域 
一 般 小 于 7Y。 然 而 ， 如 果 f 的 值 域 就 是 Y， 那 么 说 是 映射 到 Y 上 的 一 个 函数 (或 是 满 射 的 ) 。 

如 果 假 设 4 CX， 那 么 在 4 的 函数 站 的 像 定 义 为 中 元 素 的 集合 ， 即 对 于 x EA, Ay = fa). 
像 记 作 AL4]。 这 样 ， 当 且 仅 当 Y = 多， 的 值 域 为 IX]， 是 映射 到 Y 的 。 现 在 ， 若 8 CY， 我 们 定 
义 8 的 逆 像 广 '[B] 为 当 Ax) 在 8B 中 时 x E X 的 集合 。 注 意 ， 当 且 仅 当 Z7 的 每 个 非 空子 集 的 逆 像 非 空 时 / 
映射 到 7Y。 函 数 AX 一 Y 称 作 一 对 一 或 内 射 ， 或 单一 映射 ， 如 果 f(x1) =f) Aten, = 2 时 成 立 。 如 果 
函数 是 一 对 一 的 从 X 映 射 到 7Y， 函 数 称 为 xX 与 7 一 一 对 应 的 (或 双 射 )。 在 这 种 情况 下 ， 有 一 个 昭 
数 g:Y 一 XX， 对 任意 x 和 y 有 g(xX)) = x 和 f (ey) = y. BRERA, WE. BLX—Y, 
g8:Y->Z， 我 们 将 定义 一 个 新 函数 h:X->Z， 写 作 h(x) = g(f(x))。 函 数 h 称 为 8 与 的 复合 函数 记 作 gf。 

在 神经 计算 的 研究 中 多 个 变量 的 函数 是 非常 重要 的 。 如 果 假 设 向 量 x eR ( 其 中 x = [x， 
2 X41), ME SREARES, BESOMER/MAS E (参照 A.5 节 ): 

min f(x) 

THEN LEMDA. 

定义 A.10 集合 2 是 凸 集 ， 当 任意 元 素 r,yE 2， 

px+0-ByEE VO<p<1l 

定义 A.10 简 单 地 说 如 果 x, y 属 于 ， 那 么 连接 x 和 y 的 线段 也 在 中。 每 一 个 由 线性 约束 系统 
定义 的 集合 都 是 凸 集 。 图 A-3 给 出 凸 集 和 韭 凸 集 的 例子 。 


Ore 


图 A-3 a) 和 b) 为 凸 集 示例 ，c 和 d) 为 非 凸 集 示例 


定义 A.11 对 每 一 个 x,y EZ3，VB, (0<B<1)， 定 义 在 山 集 2 上 的 函数 是 一 个 山 函 数 ， 写 
作 : fpBx+ -PBA + (C-BO). yb, HEVBO<6<DEx+y, BRERA 
%, Bl: f(Bx + (1 — By) < BAx) + (1— BYO). 

图 A-4 给 出 了 一 个 凸 函 数 的 例子 。 从 几何 上 看 ， 这 意味 着 一 个 国 数 是 西国 数 ， 如 果 在 它 的 
图 上 画 连 接任 意 两 点 的 直线 均 在 图 之 上 (没有 在 图 像 之 下 的 )。 直 观 上 讲 ， 函 数 的 图 像 是 碗 状 


A 
© 
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x Bx +0 -By 
图 A-4 山 函 数 示例 


设 F(x) 是 n 维 向 量 x+ 的 函数 构成 的 m 维 向 量 ， 即 F(x) = (A), A e f(xX)]。 当 为 某 个 常 
量 满足 : 


F(x) -FO)|<Allx—yll Vx. y Ez (A-169) 
FF Rol AMAR (Lipschitz) 连续 的 。 
A.3.2 二 次 型 


n n 


q= DY Pr (A-170) 
te) =1 


xe! (Hx = ,J )， 在 Pj 中 ,i,j = 1,2,…, ERR, gH, HK (A-170) 
可 以 简写 作 向 量 矩 阵 形式 : 


q=x'Px (A-171) 
Ep, PER "(P= [pj (P 通 常 假 定 为 对 称 的 , P =P), K (A-171) 的 二 次 表达 式 可 以 写作 ， 
q = trace(Pxx7) = trace(xx’P) (A-172) 

对 于 x E YI 和 P E 6”*”， 复 二 次 型 可 以 写作 : 
q = x"Px (A-173) 


其 中 P 假 定 为 埃 尔 米 特 ，P” = P。 二 次 表达 式 可 以 写作 g = (Px, x) (参照 A.2.3 节 )， 称 作 欧 几 
PRAM, EP" = P， 其 为 实数 。 关 王 二 次 型 ， 参 照 A.2.6 节 对 称 和 矩阵 的 确定 性 限定 。-… 次 型 
的 一 个 特例 是 P 是 对 角 和 矩阵 。 在 这 种 情况 下 ， 没 有 又 积 项 , 即 R=0,Vizj。 
A.3.3 链 式 法 则 

Eqo) = u(x)v(x)， 则 





O 开 集 此 处 是 指 -个 开 球面 ， 其 中 心 为 x， 半 径 s > 0， 即 S(x, 6)。 因 此 ， 式 〈A-169) T ASEF = 
Fy) <pllx—yll, Yy ES, 8。 鸭 数 F 也 可 称 为 8 秩 在 x* 点 是 局 部 利 普 希 茨 连 续 的 。 
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oat) = (uv) =u (A-174) 
车 q(x) = (u(x)/v(x))(v #0), Il] 
d d u LEES 
QQ e Aa A-1 
ant” L > (A-175) 
车 g(x) = (clu) ce ER), M 
Gyo f(e\_ df cd _ 
ae = aa) ala) 7 we ae (A-176) 
q(x) = w(x)， 则 
Egay- Su") = nul"! Eo) (A-177) 


假设 y = flu), u = g(x)。 可 以 把 y 写 作 一 个 函数 的 函数 y = f(g(x))。 若 y 是 x 的 可 微 函 数 ，u 是 x 
的 可 微 函 数 ， 则 y = flex) 是 x 的 可 微 函 数 。 写 作 : 
dy _ dy du 
dx du dx 
Biz = fa, y) 是 变量 x 和 y 的 连续 函数 且 有 连续 的 偏 微分 3z/9x 和 09z/3y，x，y 是 变量 1 的 可 微 函 
数 ，x = 8(D),y = h(t)， 那 么 z 也 是 变量 /的 函数 dz/dt ( 称 为 z 对 于 [的 全 微分 ) 如 下 : 


(A-178) 


一 -= 一 一 + 一 一 A-179 
dt ord dy dt ( ) 


Ez = flx, y) 是 变量 x 和 y 的 连续 函数 ， 且 有 连续 的 偏 微分 9z/9x 和 9z/9y，x 和 y 是 独立 变量 r 和 
5 的 连续 函数 x = g(r, s) 和 y = hlr, s)， 那 么 z 是 r 和 s 的 函数 且 : 


一 一 一 一 二 一 一 和 一 = 一 一 + 一 一 A-180 
or 6xor dy ar ðs oxas dy ds ( ) 





假设 
fix) = g(x)h(x) (A-181) 
其 中 g 和 h 是 向 量 x E R = [xn a ee) ) 的 连续 可 微 标量 函 数 。 那 么 ， 
VF) =V.8 (x)h(x) + V A(x) g(x) (A-182) 
其 中 
v foa - oo) (A-183) 
= ax Ox, ON, OX, 
是 /对 应 于 x 的 梯度 。 
A.3.4 ERARIS 


A.3.4.1 关于 向 量 的 标量 函数 微分 
Bitr, y ER", PER", HAER”, W 


a 
1. —(x"y)=y 
dx 


593 
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ð 
2. z= y 
3. ("x)= 2x 
x 
4. Z (Px) P’ 
ð, T 
5. ox Py) = Py 
ð 
6. 5p POOPY =P"y 
ð r ð, 7 eoor 
7. 一 (xz Py)=—(y Px) = Py, F P’ =P 
Ox ox 
8. <(x'Px)- Px+P'x 
x 
9. <(x"Px) = 2Px, Xt P’ =P 


10. La- P@-y) = 2P(x- y), FP’ =P 





a 

11. Ax)=A 
axt ¢ ) 
ó x 
x= 

12. ay? xl 


13. Z aP) = Px + vec(x" P) = Px+P'x 
x 


14. an = (I, ® A)vec(I,) = vec(A) 
x 





ð ð 

. a FOX) = FF OX) = LOx + xI, 
0 r a | 

16. —(x"@A)=—(AOx’) =1,0A 
Ox Ox 


A3.4.2 关于 矩阵 的 标量 函数 微分 
对 于 适当 维 数 的 矩阵 4、 吾 和 C ， 可 以 得 到 


ð 
. ——trace(A)= I 
1 3A (A) 
9 TT 
. —trace(BAC) = BC 
2 JA ( ) 
ð T 
. — trace(BA' C) = CB 
3 5A ( ) 
4 —~-trace(ABA’) = AB’ + AB 
ðA 
5. ~-trace( ABA) = A'B’ +B A" 


6. ~trace(BACA) = B'A'C' +C'A'B' 
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~trace(BACA") = B' AC’ + BAC 
ð T 

. — trace(A 4)=24 
ðA 


. = trace(BA’ AC) = ACB+AB'C’ 


10. ~<“trace(BAA'C) = B'C'A+CBA 


~~ trace(BA" AB! )=2AB"B 


12. Æ trace(B' AA" B) = 2BB' A 
JA 


. 0 trace{B(ATAY B'} = 9 trace(BA'AATAB") 
0A 0A 


=2AA'AB'B+2AB'BA'A 


ð A A 
. ~—trace(e*) =e 
14 JA (e°) 


. A1 BAC- BAC I(A`')" 
aA 


16. Š iraco" )= k(A Y 


i -Z irace(BAʻ) = -(Sa' BA‘ ) 


| trace(BA-!C) = _(A-'CBA-') 


ð aTh- 
. —logl Al= (A 
JA £ (A ) 


20. oy gt KS IA [AI(A’)" 


21. 


我 


04 

0 jgk k Tv- 

ŽIA l=k1A 1(4 ) 

们 总 结 这 一 节 ， 对 标量 rE 员 (或 TE 多) 的 矩阵 4(D ER" [RAC EW™"] 求 微分 


dA(T) A da, (t) 
dt e| dt 


Kala), i = l, 2, my m, j= 1, 2, euR, HAMWE. 


A.3.5 


FR Be 5B 


若 f(x) 是 向 量 x €E 8R"* ' 的 实 标 量 函 数 ， 在 A.3.3 节 已 定义 fx) 关 于 x 的 梯度 ， 记 作 ; VAX) = 
9f(x)/9x, 站 "> 条 。 这 里 假定 Kx) 是 C' 类 的 ， 即 ，fl(x) E C'。 车 fx) 是 C 类 的 ， 对 应 于 x 的 黑 塞 矩 
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fx) f(x) Fæ af) 











OX,OX, öx ðX, OX, OX, Ox, ðX, 
Pf Pf) Pf) Pfa) 
9 Ox,0X, OX9X, OX,0X, OX,0X, 32 
Vif = te o. PIO PIO PID PFA “lice | “we 
Ox,0X, OX,0X, 9X,0X, Ox,0X,, m7 
Sp By) BF) korreen ; ;i 
OX,OX, OX,OX,  OX,0X, Ox, OX,, 
其 中 i,j = 1, 2, ye 黑 塞 和 矩阵 是 对 称 的 ， fl 
a f(x] _ | EFW 
OX,OX | Ox AX; 
fx) 对 于 x 的 黑 塞 矩 阵 也 记 作 :，V2J(r = W(x) 。 
A.3.6 Beal ee 
Efa) 是 向 量 x ERP Re eA, REER” >R”, BN: 
I = TAO, A), OT (A-185) 
Fx) 的 一 阶 微分 包含 每 一 个 f(x) 的 微分 ，i = 1,2,…, m， 分 别 如 下 
Vix) = VAO, hA), 0) Vin] (A-186) 
其 中 
T 
S GH - 
Vf: (x) = 区 ax, =] (A-187) 


各 自 的 梯度 Vf(x)，Yf,(x),，…，Vf,(x) 构 成 了 n x m 和 矩阵 Vf(x) 的 列 ， 它 的 转 置 m x na hh 
Vf (x) = JORRIE RT HOSE, Ak, ERT ELE ATL SF 


-| ene (A-188) 
X 


j 








ij 


其 中 i = 1, 2, .…, m,j= 1,2, .…, no 具体 一 些 ， 雅 可 比 矩 阵 可 以 写作 : 





Fo He Gh 
Vi f(x)] | ax, ax, ax, 
Vf 及 f n P| a 
J(x)= ha) =| ar ax, ax, |= La) (A-189) 
RO (E Sa te 
Ox, OX, Ox 


假设 两 个 实 向 量 函 数 Ax) 和 g(x), x ER, RR) = (A), A), AGN, g) = ig), 
BAX), …, gm(X)]。 我 们 可 以 (用 适当 的 链 式 法 则 ) 写作 : 


af" g)= Ea +(%) f (A-190) 
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其 中 8f/9x = V'f(x) = JOAR Fx HET ELH, dg/ax = V'g(x) = J (x) 为 8 关于 x 的 雅 可 比 式 。 
式 (A-190) 的 结果 为 n 维 列 向 量 。 


A.3.7 索 勒 级 数 展开 式 
给 定 实 向 量 x GR SAE RB), TSHR EAS BRAD AERA: 
F(x) = f(x + Ax) = F(x) lex, +Ax'Vf(x) lex, +5 Ax"? f(a)Ax leary (A-191) 


+ 高 阶 项 
其 中 VC = Vx) 是 FLz) 在 xx 处 求 得 的 关于 x 的 梯度 ，Y f(x = VF) 是 f(x) 关 


于 x 在 zx 处 求 得 的 黑 塞 矩 阵 。 在 式 (A-191) 中 (忽略 高 阶 项 ， 考 虑 到 黑 塞 和 矩阵 的 对 称 性 ) fx) 
在 x = x, + Ax 处 的 关于 x 的 偏 导 数 为 : 





Rex, 


TE a Yfir) +V f(x, Jax (A-192) 
fx) x E 路 ”为 C' 类 的 实 值 标量 函数 ， 则 泰勒 定理 (或 均值 定理 ) 描述 如 下 : 
f(x) = fle, + Ax) = f(x) + Ax V fix, + BAx) (A-193) 


其 中 pb 是 标量 (0<B<1)。 此 外 ， 若 fx) 是 C? 类 的 ， 则 存在 标量 B(0<B<1)， 使 得 : 


F(x) = f(x, + Ax) = f(x,)+ Ax’ VF(x,)+ 5 Ax V f(x, + BAx)Ax (A-194) 


A4 李 雅 普 诺 夫 直接 法 
假设 齐 次 线性 非 时 变 系统 描述 如 下 〈 参 照 A.2.12 节 ) : 
x(t) = Ax(t) (A-195) 
HpxreR™ AER”, LE CERES AR Bae P : 
定义 A.12 ” 非 时 变 李 雅 普 诺 夫 函数 记 作 V(x)， 是 状态 向 量 x 的 标量 函数 ， 满 足 如 下 条 件 
Vt 之 wo 且 所 有 的 x 在 原点 附近 : 
L 函数 V(x) 和 关于 变量 xX), x2, …, x 的 一 阶 偏 微分 即 x = [xi, x2,…, Xn) 存在 且 连 续 。 
2. V0) = 0。 
3. 若 x 关 0， 则 V(x) > 0 (正定 )。 
当 . 
V(x) <0 HE (A-196) [598 


式 (A-195) PRAM EERE EARRA, RES A RTM A KERR IEE. HK 
中 V(x) 是 李 雅 普 诺 夫 函 数 的 全 微分 (参照 A.3.3 节 ) , 


WV dx OV de ny 


V(x) = 
0%) ox, dt dx, dt + 
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FETE BASE, x= 0 总 是 XD = 4Ax(D) 的 一 种 平衡 状态 ， 其 中 平衡 状态 为 X=0 (或 4x =0) 的 
解 ， 并 具有 性 质 V1 之 0, x, = e*'x。。 若 
V(x)<0 “FRE (A-198) 

这 种 平衡 状态 称 为 李 雅 普 诺 夫 稳 定性 (上 稳定 性 ) 。 在 式 (A-195) 中 考虑 对 于 4 的 特征 值 
的 关系 中 的 稳定 性 也 有 与 类 似 的 声明 。 即 ，4 有 一 些 特征 值 其 实 部 为 零 ， 没 有 重复 特征 值 。 
李 雅 普 诺 夫 函 数 通 常 称 作 能 量 函 数 。 然 而 ， 在 大 多 数 情况 下 ， 李 雅 普 诺 夫 沙 数 没有 动态 系统 
的 任何 物理 意义 ， 或 表示 动态 系统 的 能 量 。 

对 于 线性 非 时 变 的 情况 ， 二 次 型 可 以 代 埠 李 雅 普 诺 夫 函 数 为 : 


V(x) = x'Px (A-199) 
其 中 PE R"*", P'=P， 通 过 适当 的 链 式 法 则 ，V(x) 的 微分 可 以 写作 : 
V(x) = i Px +x" PX (A-200) 
利用 式 (A-195), 方程 (A-200) 可 以 重新 写作 : 
V(x) =x" A Px +x" PAx = x'(A'P + PA)x (A-201) 
其 中 要 求 满足 V(x) < (ME) 以 保证 系统 的 平衡 状态 是 渐 近 稳定 的 。 在 式 (A-201) 我 们 让 
A'P + PA=-Q (A-202) 


为 了 保证 系统 的 平衡 状态 是 渐 近 稳定 的 ，Q > 0， 即 8 必须 是 正定 对 称 的 (07 = 8Q)。 因 此 ， 确 
定 一 个 系统 ( 它 的 齐 次 状态 方程 为 xD = Ax) 是 否 有 渐 近 稳定 平衡 状态 的 一 个 标准 测试 是 ， 
首先 要 选择 一 个 正定 矩阵 Q， 并 解 (A-202) ( 李 雅 普 诺 夫 方 程 ) 求 出 P。 若 P > 0 (ME), 
式 (A-199) 的 二 次 函数 是 李 雅 普 诺 夫 函数 ， 系 统 平衡 状态 是 渐 近 稳定 的 。 
更 一 般 的 情况 : 
EV fxn (A-203) 
其 中 我 们 假设 非 线 性 时 变动 态 系统 ， 时 变 李 雅 普 诺 夫 函 数 定义 如 下 : 
定义 A.13 ”时 变 李 雅 普 诺 夫 函 数 记 作 V(x, ND, BRAM Mx E R (x = [x x …, OA 
EAM, BITRE PURE: 对 于 t 宇 tj， 以 及 原点 附近 的 所 有 x (平衡 状态 是 零 状 态 ) : 
1. 函数 V(x, 1), IRETE, 2, … x 的 一 阶 偏 导数 和 1! 存在 且 连 续 。 
2. V(0, 1) =0, 
3. Fx #0, tto VX, DP allx|]>0, Ha) = 0 [a(D) 是 ! 的 连续 的 非 增 标量 函数 ]。 
如 果 对 于 系统 O= f(x (其 中 f(0, ) = 0, x40, V(x, <0) 可 以 找到 时 变 李 雅 普 诺 夫 
Re, BARAK = 0 是 渐 近 稳定 的 。 
考虑 线性 非 时 变数 字 系 统 用 差分 方程 描述 如 下 : 
x(k + 1) = Ax(k) (A-204) 
其 中 x ERA SR, BRE LEME MEK BWV (x) = x?Px (其 中 P E R”, 
P > 0,P =P) ,对 Y(OO) 进 行 差分 运算 : 
AV[x(k)] = VIx(k + 1)] — VIx(O] (A-205) 
则 式 (A-205) 可 以 写作 : 
AV[x(k)] = x"(k + 1)Px(k + 1)— x (OPx(k) (A-206) 
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把 式 (A-204) 代入 式 (A-206), RIR: 
AV[x(k)] = x"(QATPAX(K) — x (OPx(K) = x (RATPA — P] x(k) (A-207) 
平衡 状态 x. = 0 是 渐 近 稳定 当 且 仅 当 式 (A-207) 中 4"PA 一 P <0 (fie). BI, ARTE 
义 一 个 矩阵 Q ER”, Q>0,07=Q, HBA 
ATPA-P=-0 (A-208) 
WRA (A-208) 的 解 P 是 正定 的 ， 那 么 , 式 (A-207) AV[x(K)] = 一 x (A)Qx(K) < 0， 且 式 (A- 
204) 的 平衡 状态 x. = 0 是 渐 近 稳定 的 。 


A.5 无 约束 最 优化 方法 
A51 极 值 的 充分 必要 条 件 


一 个 无 约束 最 优化 问题 可 以 描述 如 下 : 找 一 个 向 量 x E 路"”…， 使 得 实 值 标量 函数 E= E a) 
达到 最 小 值 ， 这 个 函数 称 作 代价 函数 或 能 量 函 数 (或 目标 函数 )。 因 此 ， 我 们 可 以 描述 无 约束 
最 优化 问题 为 : 

minimize (x) (A-209) 


其 中 对 于 设计 向 量 x = tx, x2,…, Xx] 的 元 素 没 有 任何 强制 性 约束 。 不 失 一 般 性 ,一 个 无 约束 最 
优化 问题 等 价 的 描述 就 是 求 出 相同 代价 函数 的 负 值 的 最 大 值 ; maximize- & (x) , 
我 们 让 x 为 多 (x) 的 爹 局 最 小 点 ， 使 得 
Ea Ex) Yre R (A-210) 


# E(x") < 多 的 ，VTE 中 “5， 则 好 为 严格 全 局 最 小 点 。 并 不 是 所 有 的 函数 有 有 穷 的 全 局 最 小 
上 点。 此外， 即使 对 于 一 个 函数 全 局 最 小 值 存在 ， 也 不 能 保证 函数 有 严格 的 全 局 最 小 点 。 理 想 
地 ， 我 们 希望 能 够 找到 任 一 函数 的 全 局 最 小 点 ， 但 这 是 不 现实 的 。 很 多 最 优化 方法 基于 在 特 
定点 上 的 特殊 函数 的 信息 ， 这 样 ， 信 息 在 特定 点 的 邻 域 内 有 效 。 如 果 没 有 其 他 的 信息 是 可 用 
的 ， 对 此 问题 或 做 额外 的 假设 ， 那 么 不 能 保证 找到 全 局 的 解 (或 存在 一 个 全 局 的 解 ) 。 一 个 重 
要 的 例外 就 是 函数 区 是 凸 函数 (如 线性 规划 问题 )。 若 我 们 加 上 约束 考虑 此 问题 ， 可 行 点 集 Z 
可 以 定义 为 一 组 约束 ， 这 个 集合 也 可 以 为 凸 集 。 注 意 ， 对 于 没有 约束 的 问题 ， 集 合 王 可 以 

如 果 在 特定 的 函数 中 找 不 到 全 局 最 小 点 ， 那 么 求 其 次 ， 求 比 周 围 点 中 更 好 的 解 。 因 此 ， 
我 们 要 找 函 数 罗 的 局 部 最 小 点 ， 即 ， 一 个 点 满足 : 


EE E(x) VrE R! 忆 |lzr 一 zx <e (A-211) 
epee RMP hE. BAe (局 部 解 ) 是 严格 局 部 最 小 点 ， 则 
E(x") < E(x) VrE R™'Dxe¥x*Allx—x" |< e (A-212) 


严格 局 部 最 小 点 在 很 多 情况 下 可 以 通过 计算 罗 对 于 x*， 在 x = x 的 一 阶 和 二 阶 微分 得 到 。 因 此 ， 
严格 局 部 最 小 点 可 以 通过 计算 代价 函数 的 多 的 一 阶 和 二 阶 微分 的 算法 求 得 。 很 多 算法 只 允许 


即使 特定 问题 要 求全 局 解 ， 很 多 情况 下 局 部 解 如 果 能 够 使 代价 (目标 ) 函数 产生 一 个 可 接受 
的 缩减 量 ， 也 是 令 人 满意 的 。 


假设 © x) PRE, VEO Ee 0, RIE S (0) 的 严格 


a 





a 
a 
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Fatah (BN, SO) a PBR Ee AAS), ， 黑 塞 矩阵 V“ 6 OER EEEN , 
BP x'V'E (x), > 0, WER", (BRT x40), BRR ARRAY (BHRA.3.545), AE 

7S AE Hi Fe BB B/N I FE BEAR EY E(x") < E(x), O< llei] e(e > 0) 的 所 有 xXx， 
GV, (x')=0， 黑 塞 矩 阵 V? 攻 (x ) 是 对 称 正定 的 。 


A.5.2 最 速 下 降 法 


最 速 下 降 法 ( 常 指 梯度 方法 ) 是 一 种 求 多 变量 函数 最 小 值 的 最 古老 以 及 最 广泛 使 用 的 数 
值 优化 技术 。 它 是 其 他 方法 比较 的 基准 。 许 多 其 他 方法 是 由 最 速 下 降 的 方法 衡 变 而 来 的 ， 以 
提高 新 算法 的 收敛 性 。 若 我 们 假定 (ERAR) 是 x = ym, x) E RSA, 
在 %" 上 有 连续 的 偏 微分 ， 则 区 关于 向 量 x 的 梯度 由 V, (x) ERR, ANSE 8AV EA, 
在 离散 时 间 情 况 下 ， 最 速 下 降 方 法 可 以 定义 如 下 : 
Xiri SX OB: (A-213) 
Keb, ERR, x, = x(k), & A 
V.E), ait fir le Z a- ag) B/N. 
BoR TEMA AEE “PRE” H E -g TER 
这 条 线 上 的 最 小 点 搜索 ， 最 小 点 用 xu 表示 。 图 A-5 
说 明了 最 速 下 降 的 迭代 过 程 。 
离散 时 间 最 速 下 降 方 法 是 非 约 束 优化 动态 梯度 
系统 的 特例 。 上 面 提 到 ， 很 多 梯度 下 降 方法 由 最 速 
下 降 方法 (和 和 牛顿 方法 ) 发 展 而 来 。 这 些 方法 把 最 
优化 〈 最 小 化 ) 问题 转化 为 求 一 阶 微分 方程 ， 
ae = — (x, 1)V (x) (A-214) 
初始 条 件 为 x( = 0) = xo, 其 中 (x, 0 是 对 称 正定 矩阵 即 学 习 和 矩阵 。 为 了 找到 向 量 x ， 使 得 代价 
函数 & (z) 最 小 ， 在 式 (A-214) 中 向 量 矩 阵 的 普通 微分 方程 (与 初始 条 件 一 起 ) BATH. 
首先 考虑 找到 的 x 的 稳定 性 。 式 (A-214) 的 微分 方程 的 稳定 性 可 以 通过 对 代价 或 能 量 (EE 
普 诺 夫 ) 函数 对 时 间 求 导 解 决 (参见 A.4 节 ): 
dE 3g dx 


a, dr 本 | 
= = V8 (x) VE ,DV E(x) <0 - 
dt ax dt OF rE (X)M(X,OV E(x) < (A-215) 


因此 ， 根 据 式 (A-215) 中 的 二 次 表达 式 ， 稳 定性 条 件 是 学 习 和 矩阵 必须 是 对 称 正定 的 。 这 保证 
能 量 函 数 3 (x) 随时 间 减 少 ， 当 :一 % 时 ， 收 敛 到 稳定 的 局 部 最 小 点 (平衡 点 )。 换 名 话说， 能 
量 函 数 的 局 部 最 小 点 由 梯度 方法 解 轨迹 x”= limx(D 求 得 。 式 (A-214) 的 学 习 和 矩阵 中 的 

项 表明 了 收敛 到 最 小 点 的 速度 。 
学 习 和 矩阵 (或 开发 的 算法 ) 的 不 同 选择 可 以 产生 不 同 的 梯度 方法 。 当 学 习 和 矩阵 用 单位 年 阵 
乘 以 标量 上 (学 习 率 参数 ) 时 ， 可 以 产生 最 简单 形式 。 由 式 (A-214)， 微 分 方程 的 结果 如 下 : 
wae 


图 A-5 BOR TRAI 





= -uV ,& (x) = -ug(x) (A-216) 


初始 条 件 为 x(0)=xo。 RAHAAN, x(0D) 的 轨 线 沿 着 下 降 率 最 陡 的 方向 移动 ， 这 个 方向 称 最 
速 下 降 。 在 式 〈A-216) ， 根 据 最 速 下 降 ， 若 学 习 率 参数 是 正 数 〈(A > 0) , 则 学 习 规 则 的 连续 时 
间 形 式 是 收敛 的 。 在 离散 时 间 形 式 中 ， 式 (A-216) 最 速 下 降 连 续 时 间 学 习 规则 变 成 : 
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Xnr, ~ Ker, 


= ~ EVO (x,) = — UB, 


dx(r) 
dt 


或 
Kiet = Xe™ UB, (A-217) 
其 中 x, = Xir, T, 是 采样 周期 ， nu=THh k x(0) = xo 是 初始 条 件 向 量 。 当 0 & ne Wma 时 9 
A (A-217) 保证 收敛 性 (稳定 性 )。 学 习 率 参数 (或 积分 步 长 大 小 ) 在 时 间 几 也 能 改变 ， 例 
如 ， 根 据 与 退火 调度 表 相 似 的 算法 (2.5.1 节 ) 作 自 适应 调整 。 
A.5.3 牛顿 法 
牛顿 法 涉及 能 量 (或 目标 ) 函数 用 (x) 的 局 部 近似 值 ， 以 二 次 函数 的 形式 到 达 极 小 值 。 这 
个 咯 (x) 的 二 次 近似 值 是 对 当前 点 x 局 部 的 ， 精 确 地 最 小 化 。 在 标量 情况 下 ， 我 们 的 目标 是 在 
点 x 对 于 x 最 小 化 E(x), WA F(x), E(x), Ea) (BEAD E (x 对 于 x 的 一 阶 导数 ] o 
然后 ， 可 以 构建 一 个 二 次 函数 9g， 在 点 Xx， 区 存在 二 次 导数 ， 即 : 
Gx) = By) BNA 4) 45 LRN (A-218) 
E Wie) x, AE Ht TAE fF BK AOR RRR AA, BA (A-218) 得 到 : 


=0 


TeX 





glx) = = B(x, ) 4 BX Mx-X;) 

或 
E(x) + OX) — E'(X)X, = O 

可 以 由 经 典 牛 顿 法 求 出 ze : 
E'(x,) 
Ba) 
注意 式 (A-219) ARR SO). BHR, JEU ATURE RIE» CD = OF 
程 组 的 技术 。 当 应 用 于 最 小 化 问题 时 ， 我 们 令 = @ =). Auk, PTL SKE: 


_ (Xi) 





Xia FXT 


(A-219) 





Xk = Xk 


(A-220) 


g'(x) 


ERR y (x) = 0 的 根 。 图 A-6 给 出 图 解 。 


在 x 处 jg 的 切线 





图 A-6 用 牛顿 法 迭代 确定 函数 * 的 根 


全 
A 
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对 于 多 变量 情况 ， 即 ，x = Ex x, x), PRR 8 x) EB He BE, A 
近似 函数 精确 最 小 化 。 因 此 ， 在 点 总 附近 我 们 可 以 用 截取 泰勒 级 数 展 开 式 近似 函数 E : 


& (x)= EED VEA ET) E E-a) (A-221) 


HPV, EE R ig = VE aE ERFARE, H = VEE R IH, = HX) = VE 
EREE (BR A.3.545) 。 ia (A-221) 在 点 zx 达到 最 小 值 需 满足 : 


VE). = 
得 到 
Xin =X, — Hr V, E(x) (A-222) 
或 
Xia =X- Ay, (A-223) 


从 式 (A-222) 或 式 (A-223) 看 出 ， 二 阶 充 分 必要 条 件 要 求 黑 塞 矩 阵 在 最 小 点 x = 工 是 正 
定 的 。 (OSE OED REESE 即 


E(x) = ot "Ox+b'x+a (A-224) 


梯度 为 VE (x)= Qx + 5， 黑 塞 矩 阵 是 常量 ， 即 Veg(r) = H = Q。 因 此 ， 把 这 些 结果 与 
式 (A-222) 中 的 经 典 牛 顿 法 比较 ， 我 们 看 出 从 任意 初始 点 zo 开 始 ， 二 次 函数 的 极 小 值 一步 就 
可 到 达 。 


A.5.4 改进 的 牛顿 法 和 拟 牛 顿 法 

改进 的 牛顿 法 

在 理想 的 情况 下 ， 牛 顿 法 的 收 丝 速度 是 二 次 的 ， 而 最 速 下 降 (最 简单 的 牛顿 法 ) 是 线性 
收敛 的 。 然 而 ， 在 那些 远离 “ 解 ” 的 点 ， 对 黑 塞 和 矩阵 的 改进 必须 保证 这 个 矩阵 的 正定 性 和 下 
降 。 首 先 引 入 一 个 搜索 参数， 

Kin =X, -a (A; 8) (A-225) 

其 中 a > 0 用 来 最 小 化 目标 函数 E. RUA a, s1 。 然 而 ， 这 个 参数 可 以 避免 在 
实际 的 目标 函数 中 非 二 次 项 导致 的 增 量 目标 函数 。 方 程 (A-225) 称 作 有 限 步 牛顿 公式 。 

基本 牛顿 法 第 二 个 改进 包括 阻止 黑 塞 矩 阵 变 为 病态 矩阵 ， 即 趋 近 于 奇异 的 。 可 以 通过 很 多 
方式 实现 。 一 种 方法 是 对 黑 塞 矩阵 吾 进 行 LDQ 分 解 (参照 7.3 节 ) ， 即 百 = LDU = LDL’, HEX 
RA. DE RR"** 的 对 角 元 素 表明 HH 的 定性 ， 若 HH 趋向 于 奇异 矩阵 ， 当 增加 时 ，D 至 少 有 一 个 
对 角 元 素 有 趋 于 零 。D 的 这 个 零 元 素 (或 几乎 为 零 ， 或 非 正 ) 可 以 被 一 个 小 正 数 替 换 ， 以 保证 
当 条 件数 增长 时 ， 改 进 的 黑 塞 矩 阵 互 是 正定 的 。 可 以 通过 每 次 迭代 时 执行 下 面 的 步骤 实现 : 


改进 的 牛顿 法 


ee ee vate tens SA VE RO OUP SOB GEARED TO Te RAN EE 


SRI ARMM M BRK E RE, 

步骤 2 k=0,1,2,--, te. = V, 多 [xi] (其 中 史 是 目标 函数 )。 如 llg 几 < e， 则 停止 计算 。 
步骤 3 计算 4 = LDL’. 

步骤 4 如 有 必要 修改 D 的 对 角 元 素 ，D<D,。 

BRS ALD, Ld, = 一 gi 计算 搜索 方向 。 

步骤 6 执行 线性 搜索 的 确定 zi= 了 + Qidi 新 解 估计 ， 其 中 a 选 定 如 下 ， 
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min& (x, + ad,) 


aed 


步骤 7 回 到 步骤 2。 口 





作为 选择 ， 一 个 对 角 和 拖 阵 可 以 加 到 百 ， 即 用 sw + HH 取代 五 ， 其 中 & 是 最 小 的 非 负 常量 ， 使 
得 矩阵 sy + Hi 的 特征 值 大 于 或 等 于 6 > 0 (其 中 6 是 根据 HH 合理 的 条 件数 确定 的 )。 然 后 定义 方 
向 向 量 
d, =—(ed + H,)g, (A-226) 
根据 
Xp =X, + ad, (A-227) 
迭代， 其 中 wz>0 使 得 罗 (xx- ad 达到 最 小 值 。 我 们 很 容易 从 式 (A-226) MA (A-227) 看 出 
最 速 下 降 方法 是 牛顿 法 的 特例 。 特 别 是 式 (A-226) ， 若 每 次 迭代 ed + H, = 1,， 则 方向 向 量 总 
是 取 区 的 梯度 的 负 值 ， 即 di = 一 8 。 式 (A-227) 的 迭代 表达 式 归 约 为 最 速 下 降 式 (A-213), 
此 外 ， 黑 塞 矩 阵 太 加 上 er 等 价 于 前 面 使 用 LDU 分 解 改 进 的 牛顿 法 。 
拟 牛 顿 法 
很 多 情况 下 只 有 目标 函数 多 的 梯度 是 可 用 的 ， 而 不 是 黑 塞 矩 阵 。 在 这 种 情况 下 ， 所 谓 的 
拟 牛 顿 法 (也 叫做 变 度量 法 ) 可 以 使 用 。 拟 牛顿 法 的 基本 思想 : EA (A-223) 中 黑 塞 和 矩阵 的 
求 逆 的 过 程 近似 于 梯度 下 降 优 化 过 程 实际 求知 的 每 一 步 。 现 今 最 流行 的 拟 牛 顿 靶 之 一 就 是 
Broyden-Fletcher-Goldfarb-Shanno (BFGS) 算法 。 算 法 的 细节 在 以 下 [9] 中 给 出 。 
Broyden-Fletcher-Goldfarb-Shanno 算法 


选 定 初始 解 向 量 xz 及 初始 黑 塞 近 似 值 Bo (Bo= 1). 
步骤 2 人 = 0, 1,2,…， 若 x 是 最 优 的 (在 某 种 意义 上 )， 则 停止 。 
步骤 3 SMU ARBRE MRR, W, g= Vx ECxi) Re Mt Td ARB d, =g. 
步骤 4 执行 线性 搜索 的 确定 ,i= mtaudt， 其 中 必 选 定 如 下 
min (x, +ad,) 
BRS 计算 6 = xp.) ARIE Eo 
步骤 6 计算 





RUA AOI AREA PRP LE BLS BEE PS RESIIAET ILE ELS EOE SAIS EN Say WAI AS DEED EDI, 





BNB y 
ô Bô, yo 


其 中 ， 吾 是 黑 塞 矩 阵 V2G (xn 的 当前 估计 值 。 
步骤 7 回 到 步骤 2。 E 


上 面 的 步 又 6 用 来 修正 黑 塞 矩阵 的 估计 值 ， 看 作 秩 2 公 式 。 秩 2 修正 公式 保证 黑 塞 矩 阵 近 似 
值 是 对 称 正定 的 。 


A5.5 KAHER 
FE BEBE BE Ty 15 RH AE FAR R 


B,,, = B, 


Qx=b (A-228) 
对 于 x ER"*', QER™", Q'=O0,0>0), bER™', 求解 式 (A-228) 等 价 于 求 标量 函数 [10] 


E(xX) = Or- (A-229) 





nN 
oO 
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BUM. ERRER, ATG TIBI do di, …, d, | SERERE (参照 A.2.8 节 定 

MAB), BNd7Qd, = 0，i#j。 在 选 代 过 程 的 第 k 次 迭代 ， 把 目标 函数 当前 计算 的 负 梯 度 向 量 和 

以 前 方向 向 量 线性 组 合生 成 的 共 轿 方 向 向 量 。 共 轿 梯 度 法 的 优点 在 于 : (1) 用 非常 简单 的 公 

式 确定 新 的 方向 向 量 ，(2) 这 使 得 共 轿 梯度 法 稍微 比 最 速 下 降 法 复杂 (3) 因为 方向 向 量 是 

基于 计算 的 梯度 ， 所 以 过 程 中 的 每 一 步 求解 都 保持 很 好 的 统一 性 。 对 于 纯 二 次 式 的 情况 ， 这 

是 不 重要 的 ， 但 共 斩 梯 度 法 的 通用 性 对 于 非 二 次 式 问题 非常 重要 。 共 斩 梯 度 算法 总 结 如 下 : 
HEHE 


步骤 1 以 任意 xo EW Fie. ERMA HAEA 
do=—g0=— A E(x)lio = b— Qx, 








M2 GO. RH. 8.= Qn- 
步骤 3 x =x, + ad, 
PRA du =— Birt Bids, 关中 p= Hi ' 
及 的 另 一 个 形式 是 
p, = Eegen 
Br Bi 
BRS 回 到 步骤 2。 


这 个 算法 在 有 限 步 内 收 敏 ， 二 次 式 问 题 收敛 在 z 步 内 完成 。 注 意 ， 在 共 斩 梯 度 算法 中 第 一 
步 与 最 速 下 降 算法 是 等 同 的 。 在 上 面 算法 的 步骤 2， 参 数 a 是 给 定 的 。 这 个 参数 可 由 a, = ming 


azo 


(x, + ad 确定 。 即 ， 对 于 纯 二 次 式 (A-229) 的 情况 Ea) x Ox- 2", HL, 


& (x, +ad,) = to, +ad,) Q(x, +ad,)- (x, +ad ) 
(A-230) 


Lalor, + 2ad/ Qx, +oa2d Qd,)- x] b- ad] b 


计算 式 (A-230) 对 参数 a 的 梯度 ， 并 令 结果 为 0: 


26% tad) grox, _ arb+ od'Qd, = d7 (Qx, - b)+ ad" Od, 
ða 一 一 (A-231) 


=d; g, +ad; Qd, = gid, + ad; Qd, =0 
对 于 wa= wm， 式 (A-231) PARA: 





(A-232) 


HIREA ER PR ERE R24 h. 
现在 让 我 们 把 结果 推广 到 非 二 次 问题 。 假 设 在 解 点 的 附近 ， 问 题 近似 为 二 次 方程 。 有 几 
种 方法 可 以 办 到 。 但 是 ， 我 们 只 介绍 一 种 方法 ， 基 于 线性 搜索 算法 ， 和 这 个 算法 的 两 个 变异 。 
Fletcher-Reeves# Wi 3 Hit (PER) 
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为 求 区 (x) 的 最 小 值 ， 其 中 x E RR**!， 多 不 一 定 是 二 次 函数 。 
Fletcher-Reeves 共 轿 梯度 算法 ( 带 重启 ) 


PT EMMA? ABS ES AB SRE BE A EAE RRP TAREE REO tee 











步骤 1 设 xo。 
步骤 2 计算 
go = V B(x) = 2E) 
ôx z=% 
步骤 3 itd = 一 go 
步骤 4 计算 


Xe =X, + ad,, Ba, = min 4 (x, + ad,) 
az0 


步骤 5 tt He, =A, E (tu) 
步骤 6 计算 
dai =— Bia + Bed, HP, p, = fin 
Br Bi 
执行 步骤 4 至 6 时 k=0, 1,…,n 一 1。 
步骤 7 ”以 六 替代 xo， 回 到 步骤 1。 
BMS 继续 直到 达到 收敛 。 终 止 标准 应 是 |ldl| < e (其 中 e 是 一 个 适当 的 预先 确定 的 小 数 )。 口 


在 上 面 的 步骤 6 计算 Bb 时 用 到 了 Fietcher-Reeves 公 式 。 其 他 两 个 计算 B 的 方法 如 下 : 





T 
Polak-Ribiere 法 6, = (8 8:) Eu 
Br BL 


: > (Biss -gaY gin 

Hestenes-Stiefel?: B, = d'E ) 

FE BORE RE HE TP BA A AR. LRRD ESE (在 步骤 7) 对 于 目标 
函数 不 是 二 次 式 的 情况 非常 重要 。 在 每 n 重 迭代 (或 非 下 降 搜索 方向 生成 ) Ja, RETR 
向 的 搜索 重启 Fletcher-Reeves 共 轿 梯 度 算法 。 纯 最 速 下 降 每 执行 4 步 称 作 一 个 “间隔 步 "。 算 法 
重启 的 特性 对 于 全 局 收 化 非常 重要 ， 因 为 通常 不 能 保证 生成 的 方向 d 就 是 下 降 方 向 。 和 注意， 
在 上 面 的 步骤 4，o 必 须 来 自 特 定 的 目标 函数 ， 这 在 某 些 情况 下 很 难 做 到 。 


A.6 约束 非 线性 规划 
A.6.1 库 恩 - 塔 克 条 件 

库 思 -- 塔 克 条 件 是 不 等 式 约束 的 最 优化 问题 的 必要 条 件 。 我 们 让 x* 为 标量 函数 多 的 局 部 极 小 
fA (最 小 点 ) 限于 约束 gj (>0， 其 中 = 1,2,…, m,x ER*!。 因 此 ， 希 望 


最 小 化 & (x) (A-233) 
ZRF 9420 j=1,2,…,m (A-234) 

我 们 可 以 构建 一 个 由 下 式 给 出 的 拉 格 朗 日 函数 [9-11] 
B(x, A) = E(x) ~ > Ag (x)= &(x)- A" g(x) (A-235) 


Jl 





456 HRA MBit HOR sR 








其 中 g CR AYRE, ACR BEBMARTMR, BOER (A-233) 和 
式 (A-234) 为 问题 的 局 部 最 小 点 , 它 也 是 约束 的 正则 点 。 那 么 ， 存 在 一 个 拉 格 朗 日 乘 子 向 量 
和 ， 满 足 如 下 条 件 ( 称 作 库 恩 -- 塔 克 条 件 ) 
1. V, Z (x, 4) =0, BI 


ot Ñe OB") ye ag) 
VEG- SAV, g(x) = SA = 0 - 
Ex) > Vg; (x) 去 > as (A-236) 
对 于 i = 1, 2, n 
2. Ng(x)=0 j=1,2, >m (A-237) 
3. Aj20 j=l,2,--,m (A-238) 
4. g(x)>0 j=1,2,--,m (A-239) 


假设 式 (A-236) ~ 式 (A-239), & (x) Allg, (00 有 连续 的 一 阶 偏 微分 。 点 z E ECR E 
所 有 约束 称 为 可 行 性 。 若 可 行 点 的 集合 > 非 空 ， 最 优化 问题 称 作 相 容 的 。 若 一 个 可 行 点 x 是 标 
量 函 数 乡 (x) 在 可 行 点 集 > 上 的 局 部 最 小 点 ， 它 就 是 局 部 最 小 点 。 这 个 条 件 在 式 (A-237) F, 
BAT g(x") =0, 称 作 互补 松弛 条 件 。 既 然 向 量 入 和 g(x) 均 为 非 负 ， 它 暗示 对 于 每 个 j, Ajedx") =0, 
这 意味 着 约束 无 效 或 相应 的 拉 格 朗 日 乘 子 为 0。 特 别 地 ， 任 何 一 个 无 效 约 束 都 有 拉 格 朗 日 乘 子 
等 于 0。 若 有 关 的 拉 格 朗 日 乘 子 与 有 效 约束 均 为 正 ， 那 么 严格 的 互补 性 存在 。 否 则 ， 若 有 效 约 
东 相 应 的 拉 格 明日 乘 子 为 0， 约 束 是 退化 的 [9]。 


A6.2 拉 格 朗 日 乘 子 法 
我 们 处 理 约束 优化 问题 ， 考 虑 如 下 非 线 性 规划 问题 : 


最 小 化 & (x) (A-240a) 

受 限 于 a(x)<c, j=1,2, =, m, (A-240b) 

efx)=c, j=m +1, ++, mm <m) (A-240c) 

g(x) = ci j= m +1, =, m(m <m) (A-240d) 

其 中 x € w, Bit (x) Fg (x), f= 1, 2, …, mm 有 连续 的 一 阶 偏 导 数 。 对 于 非 线 性 规划 问题 ， 
我 们 可 以 定义 拉 格 朗 日 函数 : 

Ex, A= E00)- Y Alg -eo (A-241) 


Jel 


车 我 们 假设 x* 是 正则 点 和 该 问题 的 局 部 最 小 点 ， 那 么 至 少 存在 一 个 非 零 向 量 入 ER, 使 


611 1. X <O j=1,2, =, m, (A-242a) 
2. X>0 j=m+1, =, m (A-242b) 
3. 任意 符号 的 入 j= m+1,…,m (A-242c) 
4. Aj =0 jEJo (A-242d) 
其 中 io 是 下 标的 集合 ，j = 1, 2, …, m2， 不 等 式 在 x 处 为 严格 不 等 。 
5. Ajig()-¢) =0 j=1,2,.,m, (A-242e) 





O x 的 局 部 最 小 点 称 作 约 束 的 正则 点 ， 如 果 梯 度 向 量 V,gj(x”), j E J 是 线性 独立 的 ， 其 中 J 是 在 x* 对 应 有 效 的 
不 等 式 约 东 的 指标 集 ， 即 ，J = 人 1 <j<m, gc) = 0}( 即 ， 所 有 指标 在 x* 对 应 等 式 约束 )。 
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6. V,E(x')- SAV, 8,(x")=0 (A-242f) 
j=l 


对 于 目标 函数 区 (xX) 最 小 化 的 特例 ， 须 满 足 等 值 约束 g(x) = CC), j= 1, 2, cy M, 这 些 条 件 归 结 于 
下 面 的 关系 : 


V,E(x")- Sav. (x )=0 (A-243) 
其 他 条 件 是 元 余 的 。 
拉 格 朗 日 乘 子 法 在 一 个 等 值 约束 条 件 下 的 一 个 例子 ， 求 可 以 装 入 椭 球 体 的 最 大 体积 : 
Silia (A-244) 
c 


假设 盒子 的 每 一 条 边 是 平行 于 直角 坐标 系 轴 ， 盒 子 的 8 个 角 的 每 一 个 均 在 椭 球 体 上 。 令 第 1 个 
角 ( 八 分 之 一 ) 的 坐标 为 (x, y, z?)， 因 此 ， 盒 子 的 维度 为 2x, 2y, 22, WRAV = 8xyz。 这 是 在 
式 (A-244) 约束 下 希望 确定 的 Y 的 最 大 值 ， 因 此 ， 它 的 拉 格 朗 日 函数 可 以 写作 

a b? ec 


2 2 2 
Zaya Aya rri) (A-245) 


A (A-243) 的 必要 条 件 为 : 


If 

ow = 8yx-2A-— =0 (A-246a) 
Ox a 

OL 

OM = 8x2- 20 =0 (A-246b) 
ay b 

OL z 

—— 8-24 =0 (A-246c) 
Oz c 


式 (A-246a) ~I (A-246c) 中 每 个 方程 除 以 2， 式 (A-246a) 乘 以 r， 式 (A-246b) 乘 以 ， 
式 (A-246c) 乘 以 z， 再 相 加 ， 得 : 


2 2 z? 
Hri) 0-2 A= 120% (A-247) 


C 





i 


现在 将 式 (A-247) 的 结果 代入 必要 条 件 式 (A-246a) ~ 式 (A-246c), fF: 
yea’ -3x)=0  xzą(b? -3y )=0 xy(c’ - 327) = 0 (A-248) 


既然 要 求 最 大 体积 ， 从 式 (A-248) 中 的 三 个 表达 式 我 们 可 以 求 得 正 值 x, y, z。 因 此 ， 


a > 
*- 7 万 -万 (A-249) 





A=12xyz = 万 (A-250) 


因此 ， 可 以 装 进 椭 球体 的 最 大 体积 的 盒子 的 维度 为 (2a/3, 2b/V3, 2c/V3) ， 最 大 体积 为 


a 


Ne 
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_ 8abc 
max ~~ 33 (A-251) 


A.7 随机 变量 和 随机 过 程 
A.7.1 随机 变量 


随机 变量 的 表达 始 于 概率 的 讨论 。 有 多 种 方法 定义 概率 。 四 个 最 常用 的 为 : (1) 公理 
(测量 ) (2) 相对 频率 OB- 米 泽 斯 分 布 (Von Mises)); (3) 以 有 利 因素 占 可 供 选 择 的 总 数 
的 比率 为 优先 权 的 定义 (经 典 方法 )，(4) 可 信和 度 度量 (归纳 推理 ) 。 然 而 ， 这 两 个 最 有 用 的 
定义 是 相对 频率 方法 和 公理 方法 。 相 对 频率 方法 试图 把 概率 和 物理 意义 联系 起 来 。 因 此 ， 这 
种 方法 可 以 把 有 关 概 率 概 念 和 现实 世界 联系 起 来 。 公 理 方法 把 一 个 事件 的 概率 看 作 是 一 个 满 
足 特定 假设 的 数 ， 否 则 未 定义 。 这 个 数 没 有 必要 一 定 要 涉及 现实 世界 的 任何 东西 ， 也 没有 必 
要 与 假定 中 出 现 的 数学 结构 相关 。 

相对 频率 方法 

在 概率 的 相对 频率 方法 中 ， 概 率 与 特定 事件 的 出 现 频率 密切 相关 。 一 个 事件 发 生 或 不 发 
生 是 偶然 的 。 例 如 ， 抛 硬币 结果 可 能 为 正面 也 可 能 为 反面 ， 每 一 个 都 是 事件 。 试 验 和 试验 的 
结果 对 于 更 加 精确 理解 这 个 概念 十 分 重要 。 抛 硬币 ， 掷 仍 子 ， 抓 扑克 牌 ， 观 测 电 压 大 于 零 
(小 于 零 ) …… 所 有 这 些 均 是 试验 的 例子 。 在 列举 的 每 个 试验 中 ， 出 现 的 结果 是 有 限 的 。 这 是 
离散 概率 的 特例 。 如 果 试 验 在 一 个 可 能 的 连续 值 的 范围 内 观测 电压 ， 那 么 有 无 限 种 结果 (这 
是 连续 概率 的 例子 ) 。 在 抛 硬币 的 试验 中 ， 我 们 期 望 ， 对 于 相对 大 量 的 试验 次 数 ， 一 半 次 数 是 
正面 ， 一 半 次 数 是 反面 。 因 此 ， 我 们 可 以 对 两 个 事件 之 一 的 每 个 事件 的 概率 赋值 为 112。 一 般 
地 ， 若 一 个 试验 执行 次 ， 我 们 期 望 事 件 4 发 生 NA 次 ， 则 我 们 假定 4 的 概率 为 Pr(4)， 即 ， 


Na 
Pr(A) = 5 (A-252) 


数目 NM, 不 是 在 N 次 试验 中 4 发 生 的 实际 次 数 ， 只 是 我 们 假设 基于 这 个 试验 的 直觉 的 数 。 如 果 
某 个 试验 可 能 有 的 结果 为 : 4, B,C, …, M (在 任何 一 次 试验 中 只 有 一 种 结果 发 生 ) ， 那 么 ， 
可 能 事件 称 作 互 所 的 。 如 果 事 件 4 期 望 在 N 次 试验 中 发 生 Ns 次 ,事件 8 期 望 发 生 Np 次 ， 依 此 类 
推 ， 那 么 ， 


NstNstNet: +Ny=N (A-253) 
两 边 均 除 以 N， 
Ma Moy tt (A-254) 
由 式 (A-252) ， 我 们 可 以 把 式 (A-254) 写作 : 
Pr(A) + Pr(B) + Pr(C) +… + Pr(M) = 1 (A-255) 
四 个 重要 的 声明 总 结 如 下 : 


1.0<Pr(A)<1, 
2. Pr(A) + Pr(B) + Pr(C) + … + Pr(M) = 1， 假 设 为 互 斥 事件 的 全 集 。 
3. 一 个 不 可 能 事件 表示 为 : Pr(4) = 0。 
4, 一 个 必然 事件 表示 为 : Pr(4) = 1。 
如 果 有 几 个 事件 一 次 同时 发 生 ， 那 么 必须 考虑 联合 概率 。 例 如 ，Pr(4, B) 表 示 事 件 4 和 8 联合 发 生 
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的 概率 。 联 合 概率 不 一 定 等 于 各 个 (边缘 ) 概率 的 积 ， 即 Pr(4, B, ---,M)#Pr(A)Pr(B)---Pr(M), 
另 一 个 重要 类 型 的 概率 是 条 件 概 率 。 例 如 ，Pr(4|B) 表 示 事 件 4 在 事件 B 已 发 生 条 件 下 发 生 
的 概率 。 一 般 地 ， 我 们 可 以 写作 : 
Pr(A, B) = Pr(A|B)Pr(B) = Pr(B|A)Pr(A) (A-256) 
两 个 随机 事件 是 统计 独立 的 当 且 仅 当 ; 
Pr(A, B) = Pr(A)Pr(B) (A-257) 
公理 法 
这 个 方法 把 概率 理论 和 集合 论 的 概念 联系 起 来 。 概 率 空间 (97) 定义 为 在 一 次 试验 中 可 能 发 
生 的 所 有 结果 作为 元 素 的 集合 。 这 样 每 一 事件 被 赋予 一 个 数 当 作 这 个 事件 的 概率 。. 的 不 同 
子 集 可 以 由 不 同 的 事件 区 分 。 我 们 把 事件 4 的 概率 记 作 Pr(4)。 被 赋予 的 数 必须 满足 如 下 3 个 条 
件 (或 公理 ): 


1. Pr(A) 20 (A-258) 
2. Pri) = 1 (A-259) 
3. AB = 名， 则 Pr(4 +B) = Pr(A) + Pr(B) (A-260) 


其 中 4B 是 积 或 交 ， 纪 表示 空 集 (参见 A.3.1 节 )。 
概率 的 全 体 可 以 由 这 3 个 公理 推出 。 一 些 重要 的 推论 也 可 以 由 这 些 公 理 推出 : 
"AWS =O, Y + = (其 中 2 + 人 是 和 或 并 (参照 A.3.1 节 ))， 使 用 式 (A-260) 
它 遵循 : 
Pr( + D) = Pr(Y)， 因此 Pr(@)=0 (A-261) 


“因为 44 =Ø, pA RARE (参照 A.3.1 节 )，4+A4=.2 EAR (A-260) ， 它 遵循 : 
Pr(A+ A) = Pr(A) + Pr(A) = Pr.) = 1 (A-262) 

+ 由 式 (A-262) 和 式 (A-258), CWE: 
Pr(A) =1- Pr(4) <1 (A-263) 


因此 ， 一 个 事件 的 概率 一 定 在 0 与 1 之 间 。 
“ 若 A 和 B 不 是 互 斥 事 件 ， 则 ，; 
Pr(A + B) = Pr(A) + Pr(B)—Pr(AB)< Pr(A) + Pr(B) (A-264) 
条 件 概率 的 一 个 重要 性 质 是 : 








Pr(AB 
Pr(A18)= py Pr(B) > 0 (A-265) 
其 中 Pr(48B) 是 事件 4B 的 概率 。 
独立 性 
两 个 事件 4 和 B 是 相互 独立 的 当 且 仅 当 : 
Pr(AB) = Pr(A)Pr(B) (A-266) 


随机 变量 的 概念 可 以 总 结 为 如 下 定义 。 

定义 A.14 ” 实 随机 变量 X 是 一 个 实 函 数 ， 它 的 定义 域 是 样本 空间 ( 即 , .= {aj， 一 个 
随机 试验 的 所 有 可 能 结果 的 集合 ) 且 

LUPE RB ER, 集合 {X<x} 是 一 个 事件 。 


a 
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2. 事件 { 民 = +ol 和 {= 一 oj 的 概率 为 零 ， 即 Pr(X = +0) = Pr(X = 一 o) = 0, 
因此 ， 从 定义 A.14, 一 个 随机 变量 是 直接 定义 在 样本 空间 .的 实 值 函 数 ， 或 者 可 以 认为 它 是 
随机 试验 的 结果 的 数量 描述 。 当 随机 试验 的 结果 是 x， 随机 变量 X 有 一 个 值 记 为 X(a)。 若 随机 
变量 在 一 定 范围 内 《可 能 是 无 限 的 ) 可 以 假定 为 任意 值 ， 那 么 它 是 一 个 连续 的 随机 变量 。 离 
散 随机 变量 只 能 假设 为 可 数 集合 的 值 。 然 而 ， 它 可 以 当 作 连续 随机 变量 使 用 相同 的 方法 来 精 
确 的 处 理 。 在 下 面 ， 如 果 不 特别 说 明 ， 我 们 将 集中 讨论 连续 随机 变量 。 
A.7.2 概率 分 布 函数 
连续 随机 变量 可 以 在 概率 概念 的 框架 内 考虑 ， 通 过 概 牵 分 布 泗 数 [12] 定 义 事 件 及 其 相关 概 
率 空间 。 我 们 令 X 为 一 个 随机 变量 ，x 为 随机 变量 所 允许 的 任意 值 。 这 样 ， 概 率 分 布 函 数 定义 
为 事件 的 概率 ， 观 察 的 随机 变量 X 小 于 或 等 于 允许 的 值 x， 即 ， 
P(x) = Pr (X <x)? (A-267) 
一 个 概率 分 布 函 数 本 身 就 是 概率 。 因 此 ， 它 必须 满足 A.7.1 节 中 概率 的 性 质 。 然 而 ， 这 个 
函数 也 是 x 的 函数 (随机 变量 X 的 可 能 值 ) ， 这 样 必须 定义 具有 一 - 般 性 以 适合 所 有 的 x 值 。 概 率 
分 布 函 数 的 性 质 为 : 
LO<Y,Q)<1 —-%<x<m@ 
2. P A —)}=0 P,(~)=1 
3. 4h, PARER 
4. Pr(x X Sx) = Pa) Pax) 
概率 分 布 函 数 也 可 以 用 来 表示 事件 的 概率 ， 观 测 的 随机 变量 X 大 于 但 不 等 于 *。 这 个 事件 即 为 
概率 为 (x) 的 事件 的 补 集 ， 即 : 
Pr(X > x) = 1- x(x) (A-268) 
一 个 典型 的 概率 分 布 国 数 在 图 A-7 给 出 。 


Px) 





0 
图 A-7 典型 概率 分 布 函 数 


A.7.3 概率 密度 函数 
概率 密度 函数 对 于 单 随机 变量 的 概率 模型 更 方便 。( 边 缘 ) 概率 密度 函数 是 概率 分 布 函 数 


O USA Mx), 通常 在 数学 文献 中 用 来 替代 Fx(x)， 表 示 概 率 分 布 函 数 。 类 似 地 , x x(x) 也 用 来 奉 代 AO 表示 
tLe i Ee 
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的 微分 〈 当 微分 存在 的 时 候 ) ， 即 ， 


dF,(x) 
dx 


Lex (X) = (A-269) 


概率 密度 函数 的 一 般 性 质 是 : 


l.zylx) 20 — œ< x<% 

2. f. adx =1 

3. Px) = f ny (uddu 

4. J? mx (dx = Prix, < X <x) 


图 A-8 给 出 了 典型 的 概率 密度 函数 。 
Axa) 


x 
% 


图 A-8 《与 图 A-7 的 概率 分 布 函数 相关 的 ) 概率 密度 函数 
A.7.4 Se. Sane 


求 取 时 间 函 数 平均 值 的 概念 对 于 工程 师 和 科学 家 是 再 熟悉 不 过 了 。 时 间 平 均值 对 于 时 间 
随机 函数 也 很 重要 。 然 而 ， 它 们 对 于 单 随机 变量 没有 意义 (被 定义 为 即时 的 时 间 函 数 的 值 )。 
在 一 个 随机 变量 的 情况 下 ， 在 可 以 假设 的 随机 变量 可 能 值 的 范围 内 积分 求 得 平均 值 十 分 必要 。 
这 种 操作 称 作 总 体 均 值 ， 结 果 称 作 均值 。 随 机 变量 X 的 均值 为 : 


E(X) =X = EZE dx (A-270) 


其 中 p(x) aa) (随机 变量 的 概率 密度 一 一 下 标 X 将 省 略 ) ，E[] 读 作 随 机 变量 X 的 期 望 (或 X 
的 期 望 值 )。x 的 函数 的 期 望 值 ， 即 太 x) 可 以 类 似 地 由 下 式 求 得 : 


ELK =f fn) dx (A-271) 
一 个 特别 重要 的 函数 是 fx) =x. ARRIERE, B: 
EIX"]=X" = fx" a(x) dx (A-272) 


当 式 (A-272) 中 的 n= 1 时 ， 可 求 出 前 面 讨论 的 平均 值 ， 当 n = 2 时 ， 可 求 得 均 方 值 : 
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E[X?]=X? = f x? a(x) dx (A-273) 


ILEEK P SHIEK RE, CHMAMMREMEMM ZR. Ak, Brai PE 
定义 为 : 


EIX - X)"]=(X -XY = fe XY" pCa) dx (A-274) 
AR (A-274) 我 们 看 出 第 一 阶 中 心 矩 (na = 1) 为 0。 第 二 阶 中 心 矩 (a = 2) 有 一 个 特殊 的 名 
F, WE (P), HR (A274) , 它 可 以 写作 ， 
o° -EUX - X)"]= (X= XY =f 3) or) dx (A-275) 
该 方差 也 可 以 写作 : 


o° = E[(X ~ X):]=E[X’ -2XX +X] 
= E[X?]-2E[X]X +X? =X? -2XX+X -X -X 
因此 ， 从 式 (A-276) 我 们 看 出 随机 变量 的 方差 可 以 表示 为 均 方 值 与 均值 的 平方 之 间 的 差 。 此 
外 ， 方 差 的 平方 根 o 称 作 标 准 差 。 
特别 考虑 高 斯 (或 正 态 ) 密度 函数 。 高 斯 密度 函数 的 数学 表达 式 为 : 


o l -(x- XY 
a=] 20° | 


(A-276) 





< (A-277) 


其 中 X 是 均值 ，o 是 方差 。 图 A-9 表 示 了 高 斯 随机 变量 的 概率 密度 函数 。 
Aw) 





0 无 -Ga X X+o 


图 A-9 高 斯 随机 变量 的 概率 密度 函数 
均匀 概率 密度 函数 可 以 写作 : 
1 
P(X) = 4x, - x, MS 
V 其 他 x 


见 图 A-10。 
均值 可 以 用 式 (A-270) 计算 如 下 : 





RA HERA w 


0 x; X 


图 A-10 均匀 概率 密度 函数 


2 
l eget zx 


X% -x| X 一 2 
2 2 a 








X =E[X]= fx (Xdx = f x 





(A-278) 
均 方 值 可 以 由 式 (A-273) 计算 如 下 : 


3 
1 dr- 1 x 
xX,- Xi X% -=x 3 








X? = ELX’] =f x aad = 广 2 





“ (A-279) 


7 l 
a ge +X,X) + Xx?) 


oa KR) (A-280) 





A.7.5 随机 过 程 


假定 随机 试验 以 及 其 结果 a 构成 一 个 样本 空间 .， 其 中 .的 子 集 称 作 事件 和 这 些 事 件 的 概 
率 。 对 于 每 一 个 结果 a 我 们 可 以 赋予 时 间 函 数 X(t, a) 《根据 已 定义 的 规则 ) 。 对 于 每 一 个 w， 
X(t, a) 形 成 一 个 函数 族 ， 这 个 族 称 为 随机 过 程 。 因 此 ， 一 个 随机 过 程 是 两 个 变量 + (时 间 ) 和 
a 〈 随 机 试验 结果 ) 的 函数 ，X(1, a) 的 四 种 不 同情 形 描 述 如 下 : 

1. 时 间 函 数 的 族 (t 和 co 变量 )。 

2. 随机 变量 CAE, oR). 

3. 单一 时 间 函 数 (1 为 变量 ，a 固 定 )， 称 作 随 机 过 程 的 实现 或 采样 路 径 。 

4. 单个 数 (1 和 a 固定 )。 

通常 ， 符 号 X(D 用 于 描述 随机 过 程 ， 这 样 ， 忽 上 略 对 a 的 依赖 性 (这 通常 可 以 从 上 下 文 得 到 )。 

对 于 一 个 特定 的 X(D) 是 一 个 随机 变量 ， 该 随机 变量 的 分 布 函 数 通 常 依赖 于 1: 

P(x) = Pr{X() <x} (A-281) 


假定 两 个 实数 x, t, BRP ROSE RE XO <x RE, (XO MARTA EM Ale 
PAD Be BEXOM Ho, BRP 0cG0 称 作 过 程 XCD) 的 一 阶 分 布 。 相 应 的 密度 函数 可 以 由 
对 x 进 行 分 布 国 数 的 微分 得 到 

ô P(x t) 


AGO) = 
Ox 


(A-282) 


a 
© 





个 
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ERATARA M, RATAA EMILE). READE ERM Alt, FT 
以 写作 : 


P(X, Xt ty) = DX) Sx, X) Sy} (A-283) 
BY P(X), Xb tr) 称 作 过 程 X COMM OA. FARIS E ARA : 
PPX Ahh) 


PAX, Xz; ti, bh) = ax ax (A-284) 
1 2 

同时 ， 

AH) = f AG Xai tiole) dey (A-285) 
和 
P(X, Xt h) = Pt) (A-286) 
此 外 ， 条 件 密 度 由 下 式 给 出 : 

PAM st IX, (t,) = x3) = Covi bd) (A-287) 


PAX) 


FR, PPR RPA 

车 一 个 特定 过 程 的 所 有 边 绿 和 联合 密度 函数 不 依赖 于 时 间 原 点 的 选择 ， 这 个 过 程 称 为 和 
德 的 。 因 此 ， 所 有 相应 的 均值 和 矩 是 常数 ， 不 依赖 于 时 间 。 著 概率 密度 函数 随时 间 原点 变化 ， 
这 个 过 程 是 非 平稳 的 。 因 此 ， 一 个 或 更 多 的 均值 或 矩 也 将 依赖 于 时 间 。 

严格 意义 上 讲 ， 平 稳 过 程 不 存在 。 然 而 ， 在 许多 物理 情况 下 ， 在 观测 的 时 间 段 内 ， 过 程 
变化 并 不 大 。 因 此 ， 一 个 更 宽松 的 要 求 是 过 程 的 均值 是 一 个 常数 ， 它 的 自 相关 性 依赖 于 时 间 
差 一 11， 那 么 ， 这 个 过 程 称 为 宽 平 稳 (wss) 。 一 般 情况 下 ， 没 有 必要 去 区 分 平稳 过 程 和 宽 平 
稳 过 程 。 

遍历 随机 过 程 和 非 遍历 随机 过 各 | 

一 些 平稳 随机 过 程 有 这 样 的 性 质 ， 总体 的 几乎 每 一 个 成 员 都 表现 出 与 总 体 相同 的 统计 行 
为 。 在 这 些 情况 下 ， 只 通过 分 析 一 种 典型 的 样本 函数 来 决定 统计 行为 是 可 能 的 。 这 些 过 程 称 
为 亿 历 的 。 对 于 遍历 过 程 ， 均 值 和 矩 可 以 由 时 间 平 均值 和 总 平均 值 决定 。 例 如 ， 第 n 阶 一 般 抵 
可 以 由 下 式 求 出 : 

BIX"] =X" = f x'a dx = him = XO a (A-288) 

车 一 个 过 程 不 具有 式 (A-288) 的 属性 称 作 非 遍历 的 。 

ik, Anke A ih koa 

随机 过 程 Xp) 的 均值 mx(1) EXC) 期 望 值 ， 即 ， 


my(t) = EIXO] = f x 20) dx (A-289) 


EXO 是 一 个 随机 过 程 的 样本 范 数 ， 我 们 假定 两 个 时 间 占 和 户 ， 考 虑 随机 变量 XGD = X, 和 X(t,) 
=X,, BA, A ŽAR, 5) 可 以 定义 为 : 


Ry (t,t) = EIX, X= ff te ht) dx dx, (A-290) 
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这 个 定义 对 于 平稳 和 非 平 稳 的 随机 过 程 都 是 适用 的 。 然 而 ， 我 们 一 般 对 平稳 过 程 感 兴 趣 。 
因此 ， 式 (A-290) 可 以 简化 。 对 于 宽 平稳 过 程 ， 所 有 的 总 体 平均 独立 于 时 间 原 点 ， 因 此 ， 
Rgt, t) = Ry, +T, t+D=E [XG + DX + T] (A-291) 
既然 等 式 是 独立 于 所 选 的 时 间 原 点 的 ， 我 们 可 以 令 了 = 一 5， 式 (A-291) 可 以 写作 : 
Rf, b) = RCO, ty—t,) =E [XOX - ¢,)] (A-292) 
Bl Ank + iA RA RTH- RNSc=h—-t, KH (A-292) 写作 : 
RT) = Rah- t) =E [XG X(t + D] (A-293) 


从 式 (A-293) Fa, BAAR BR IE DE. FAA FAK AA BE at 
程 求 取 总 体 平均 值 的 具体 时 间 t,， 我 们 把 式 (A-293) 写作 : 


R(T) = E [X(DX(t + 可 (A-294) 
一 个 时 间 自 相关 函数 可 以 定义 为 特殊 的 样本 函数 
Ae) = limf x(ae+ 2) di (A-295) 


Fi SBA AE, 2) 5 — PAO, HERA), BD: 
RB (tT) =Ry(t) 对 于 一 个 遍历 过 程 (A-296) 
平稳 过 程 的 自 相 关 函 数 的 常规 性 质 如 下 : 
L. R.(0) = X* 。 在 自 相关 函数 中 ， 随 机 过 程 的 均 方 值 可 以 通过 令 z= 0 获得 。 
2. Rx( = Rx( 一 已 。 自 相关 国 数 是 z 的 偶 函 数 。 
3. |RxCD|<Rx(0)。 自 相关 函数 的 最 大 值 总 是 出 现在 t= 0。 
4. 车 随机 过 程 X(1) 有 均值 ， 那 么 Rx O 将 有 一 个 常量 成 分 。 
5. EX0 有 一 个 周期 成 分 ， 那 么 Rx (TD 将 也 有 一 个 相同 的 周期 成 分 。 
6. 车 {X(D)} 是 遍历 的 、 零 均值 ， 无 周期 成 分 ， 那 么 lim Ry (7) = 0。 
当 t 变 大 时 ， 随 机 变量 趋向 于 统计 上 独立 ， 因 为 随时 间 推 移 ， 过 去 值 的 作用 逐渐 “消失 ”。 
随机 过 程 X(/) 的 自 协 方差 函数 是 随机 变量 X(t1) 和 X(,) 的 协 方差 ， 即 ， 
Calti ty) = BHX) — mt X(t) — my) (A-297) 
自 协 方差 函数 可 以 直接 写作 ， 
Cyx(ti t2) = Rx(ti, t2) — mx(t ing) (A-298) 
从 式 (A-298) 很 容易 看 出 ， 车 X(D 是 零 均 值 的 ， 自 相关 函数 和 自 协 方差 函数 对 该 过 程 是 相 
同 的 。 
X(D 的 方差 如 下 
Ory = EXO) - my (OF } = Cx(t, t) = Rg (t, t) - my (1) (A-299) 


X(D0 的 相关 系数 定义 为 XC) 和 X(a) 的 相关 系数 ， 


Py lyst) = peé 
xis by Jeten) (A-300) 





相关 系数 是 随机 变量 可 以 预测 为 男 一 个 的 线性 函数 的 程度 的 度量 。 


[oN 
N 
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A.7.6 向 量 随机 过 程 
假设 x,(2), x2(D,…, ,DD 是 n 个 标量 随机 过 程 ( 可 能 相互 独立 )， 那 么 


x(t) = [XD, x2(t), + XD (A-301) 
称 作 向 量 随机 过 程 。 向 量 随机 过 程 的 均值 如 下 
m(t) = E[x(?)] (A-302) 
相关 矩阵 为 
R(t, t) = E{x(t))x"(t)) (A-303) 
LAR DA Æ EEA : 
C(t, b) = Ef {x(t,) — mx) — m(t) } (A-304) 


HO 是 宽 平稳 随机 过 程 ， 式 (A-302) 的 均值 m, 是 常量 , 式 (A-303) 的 相关 矩阵 Rb DXN 
有 的 ! 是 有 限 的 ， 式 (A-304) 的 协 方差 矩阵 只 依赖 于 tj 一 tt ， 即 C(t 一 4)。 
高 斯 GER) 向 量 随 机 过 程 x 是 一 个 向 量 随机 过 程 ，n 个 随机 变量 的 集合 ， 其 联合 概率 分 
布 是 高 斯 的 。 相 应 的 对 于 x 的 概率 密度 函数 由 下 式 给 出 
1 -(£-m Y Ci'(E-m.) 
C TP 2 (4-305) 
Hp EERE, JHB EEC HEE. 


A.7.7 功率 谱 密度 函数 和 功率 谱 密度 和 矩阵 


宽 平稳 随机 过 程 的 自 相关 函数 的 傅 里 叶 变 换 称 作 功 率 谱 密 度 函 数 ， 记 作 5.(w)。 假 定 wss 随 
机 过 程 x(?)， 功 率 谱 密 度 函 数 给 出 如 下 : 


7 (§) = 


S,(@) = [Rear (A-306) 
该 随机 过 程 的 均 方 值 可 以 由 功率 谱 密度 函数 求 出 : 
x= + f, S,(@) do (A-307) 


在 式 (A-301) H, #0 EA BlAwsshi slit, WAHRER), DRN A E 
阵 可 以 写作 ; 
S$,(w) = [Reyer (A-308) 
功率 谱 密 度 和 矩阵 的 常用 性 质 如 下 : 
1. S.(-w) = S1 (w), Vo 
2. Si@)=S,(0), Vo ( 星 号 表示 复 共 轿 转 置 ) 
3.S(w@)20, Vo [ 即 ，S.(w) 是 半 正 定 的， 或 非 负 定 的 ] 
指数 相关 噪声 例子 
我 们 将 考虑 标量 wss 随 机 过 程 x(1)， 自 相关 函数 为 : 
R(T=0’*e™® 0>0 (A-309) 
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Th 8 eB RE eA Be LA FR OE BH eR BK (A-306): 


S,(w) = of e™ e dr = o? f ee mae + of ee dt = 208 86>0 (A-310) 
a -o 0 1+w’0 


A78 自 噪声 驱动 的 线性 系统 和 谐 因 子 分 解 


ORS Mat RTE KR 
考虑 线性 非 时 变 系统 : 
x(t) = Ax(t)+ Bw(t) 
x(0)= x, (A-311) 
EPwORR EREVAN GRA , Blw(t) ey A EER PR EE: 
S,(@) =V (A-312) 


假定 4 是 渐 近 稳定 的 (参照 A.2.12 节 )。 式 (A-311) 中 的 初始 条 件 向 量 zo 是 一 个 独立 于 w(D 的 
随机 变量 ， 均 值 为 mo Qo = E[(xo 一 mo)(xo -7 Mo)" ] 为 方差 矩阵 。 那么 ，x(0 的 均值 : 
m(t) = o(t)m, = e“'m, (A-313) 


其 中 bnD = eV RAI 〈 参 照 A.2.12 节 ) 。x(D 相应 的 稳定 状态 方差 矩阵 可 以 由 稳定 状 
态 的 代数 李 雅 普 诺 夫 方 程 : 


AQ +QA' + BVB’ =0 (A-314) 
求 得 QI13]。 稳 定 状 态 方差 矩阵 也 可 由 [13] 得 出 
Q = fe" BVB eae (A-315) 
或 从 [13] 得 出 
Q= Jour -4)- BYVYB7(-jor-47)-df (A-316) 


其 中 w= 2nf rad/s, 
谱 因 子 分 解 
考虑 传递 函数 矩阵 为 H(s) 的 渐 近 稳定 线性 非 时 变 系统 ， 其 中 s 是 拉 普 拉 斯 变量 。 若 对 系统 
的 输入 是 一 个 wss 随 机 过 程 u(7) 的 实现 ， 功 率 谱 密 度 矩 阵 为 5,(w)， 那 么 系统 的 输出 是 wss 随 机 
过 程 y(0 的 实现 ， 其 功率 谱 密 度 和 矩阵 为 [13]: 
S,(o) = H(jw)S,(@)H"(—jo) (A-317) 
Heh, Ao) = H(s)|,。 是 正弦 稳定 状态 传递 函数 矩阵 。 对 于 标量 系统 ， 转 换 函 数 为 H(s)， 标 量 
wss 随 机 输入 xD ， 功 率 谱 密度 函数 为 S(w)， 输 出 >(D 的 功率 谱 密 度 图 数 为 : 
S,(w) = HG w)H( — jw)S (w) (A-318) 
换 句 话说 ， 输 出 的 功率 谱 密 度 函 数 与 传递 函数 的 大 小 的 平方 成 比例 。 式 (A-318) 的 结果 可 以 
用 拉 普 拉 斯 变换 表示 : 
Ss) = H(s)H(— s)S,(s) (A-319) 
这 个 方法 需要 用 到 双边 拉 普 拉 斯 变换 [14] 。 
许多 情况 下 只 给 定 过 程 的 功率 谱 密度 ， 需 要 建立 一 个 随机 过 程 的 模型 。 更 具体 地 讲 ， 给 
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定 wss 随 机 过 程 的 功率 谱 密 度 函 数 ， 当 修正 过 滤器 输入 白 噪声 时 ， 输 出 是 wss 随 机 过 程 (定义 
了 功率 谱 密 度 函 数 ) 的 实现 ， 修 正 过 滤器 的 特征 是 什么 ?答案 实际 很 简单 ， 方 法 很 直接 ， 称 
作 谱 因子 分 解 [14-16]。 这 个 方法 包括 分 解 这 个 过 程 的 功率 谱 密度 函数 为 正 时 和 负 时 部 分 。 正 
时 部 分 是 需要 的 修正 过 滤器 ， 这 样 ， 当 白 噪声 进入 时 ， 响 应 是 随机 过 程 的 实现 。 这 可 以 从 
式 (A-318) 看 出 。 若 修正 过 滤器 的 输入 是 零 均值 ， 单 位 方差 白 噪声 ， 输 出 的 功率 谱 密 度 是 
So) = Hjo)H(—jo), BAB FMB RAS, () = 1。 记 住 白 噪声 的 自 相关 为 R,(D) = A(z). 
因此 ，HOw) 是 所 期 望 的 修正 过 滤器 正弦 稳定 状态 传递 函数 ， 其 一 定 是 从 5S,(w) 分 解 出 来 的 。 下 
面 的 例子 将 解释 这 个 过 程 。 
在 第 一 个 例子 中 ， 过 程 的 功率 谱 密 度 是 符合 式 (A-310) 中 的 指数 相关 噪声 的 ， 即 : 








20°0 
S (w) 6>0 A- 
(0) 1+00? > (A-320) 
这 个 函数 可 以 写作 (分解): 
2 2 
S, (o) = 228 Yo (A-321) 
7 1+ job 1- job 
— 一 全 一 一 
止 时 负 时 
部 分 部 分 


因此 ， 当 由 白 噪声 驱动 时 ， 修 正 过 滤器 的 正弦 稳定 状态 传递 函数 将 使 它 的 输出 为 期 望 的 随机 
过 程 。 这 个 传递 函数 由 下 式 给 出 








H(jo) = 2228 (A-322) 
1+ jw 
以 拉 普 拉 斯 变换 形式 表示 的 传递 函数 ， 
2070 
H(s)= io; (A-323) 


当 指 数 相关 噪 声 过 程 的 功率 谱 密 度 是 以 拉 普 拉 斯 变换 表示 时 ， 式 (A-323) 的 结果 可 以 由 式 
(A-319) 直接 得 出 ， 即 : 

20°0 
1-0’? 


S,(s)= (A-324) 


在 第 二 个 例子 中 ， 随 机 过 程 的 功率 谱 密度 函数 (以 拉 普 拉 斯 变换 形式 ) 表示 如 下 : 





(A-325) 
对 分 母 多 项 式 完全 平方 ， 得 到 根 一 2 土 2 和 2 土 j2 的 集合 ， 分 解 如 下 : 
so) H aH (A-326) 


s’ +4s+85 -4s+8 
r 
ERS 负 时 部 分 





因此 ， 修 正 过 滤器 的 传递 函数 为 : 
stl 


H(s)=——} 
(s) s +4548 


(A-327) 
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A.8 模糊 集合 论 


一 个 典型 的 集合 A (参照 A.3.1 节 ) 定义 为 元 素 或 对 象 的 集合 x E XX， 每 个 x 可 属于 也 可 不 属 
TREA, ACX ( 即 ，4 是 X 的 子 集 )。 通 过 对 4 中 的 每 一 个 元 素 x* 定 义 特 征 函 数 (或 成 员 函 数 )， 
一 个 典型 的 集合 可 以 表示 为 有 序 对 (x, 0) R (x, 1) 的 集合 ， 其 中 1 表示 成 员 关 系 ，0 表 示 非 
成 员 关 系 。 特 征 函 数 也 称 作 指示 器 函数 ， 定 义 如 下 : 

1 如 果 xEA 
0 如 果 xEA 

两 个 集合 4 和 B 的 交 或 并 的 指示 器 函数 可 以 很 容易 地 以 集合 4 的 指示 器 函数 和 和 集合 8B 的 指示 

器 函数 表示 : 


n=] (A-328) 


Liag) = mint, (x), Ts(x)] (A-329) 
Lius (x) = max[1, (x), La(x)] (A-330) 
类 似 地 ， 集 合 4 的 补 集 ( 即 ，4) 的 指示 器 函数 由 下 式 给 
I(x) =1-1,(x) (A-331) 
4 为 B 的 子 集 的 条 件 表 示 如 下 : 
ACB®&1,(x)< (x) WxEX (A-332) 


不 同 于 上 面 描述 的 传统 意义 上 的 集合 ， 泛 集 X 在 一 定 程度 上 是 模糊 集 4 的 一 个 元 素 。 这 样 ， 
特征 函数 可 以 表示 一 个 给 定 模 糊 集 的 元 素 的 成 员 的 度 ， 使 其 在 0O 和 1 之 间 取 值 。 若 X 是 一 般 表示 
为 {x} 的 对 象 集 ， 则 X 中 的 模糊 集 4 定 义 为 如 下 有 序 对 的 集合 : 

A= {(x, m,(x))lx E X} (A-333) 
其 中 mu(x) 表示 在 4 中 x 的 成 员 函 数 ， 把 X 映 射 到 [0, 1] 区 间 。 一 般 ，X 是 有 序 集合 ， 集 合 4 可 以 仅 
用 成 员 函 数值 说 明 。 当 m9 只 取 值 0 和 1 时 ，A 是 非 模糊 的 (或 易 碎 的 )，m4s(x) 等 同 于 非 模糊 集 
的 特征 函数 。 

Zadeh[17] 通 过 同 标准 集 精确 地 相似 的 表达 ， 定 义 了 模糊 集 4 和 B 的 模糊 交集 (MIN) 和 模 
糊 并 集 (MAX)， 以 及 4 的 补 集 。 以 类 似 的 方式 ，Zadeh 提 出 使 用 和 8 的 成 员 函 数 定义 A 为 8 的 
模糊 子 集 ， 即 ， 

ACBem,(x)< m(x) VxEX (A-334) 
这 称 为 主 成 员 函 数 。 例 如 ， 若 4 = (0.3, 0.0, 0.7}, B = (0.4, 0.7, 0.9}， 则 4 是 8 的 模糊 子 集 ， 但 B 
不 是 4 的 模糊 子 集 。 


AS 部 分 三 角 恒 等 式 


毕 达 哥 拉 斯 公式 
sin? a+cos’ a =1 
1+tan’? a =sec’a 
1+cot?a@ =csc a 
互 反 公式 


sing = 





cosa = tana = 一 一 一 
CSC a seca cota 
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1 
csca = 一 seca = cota = 一 一 一 
sina cosa tana 
BAX 
. tana ota sina 
sina = cosa = tana = 
seca csca cosa 
ca ca cosa 
CSCQ = 一 一 seca = cota = 一 
a cota sina 
乘积 公式 
sing = tanacosa cosa=cotasina tana =sinaseca 
cot@=cosacsca seca@=cscatana csca =secacota 
， ， 1 1 
sina sin B = 3 cosa — B)- 77 cosa + B) 
1 1 
cosa cos ß = 5 costa — B)+ 77 costa + B) 
. 1 . 1, 
sina cos f = 5 sin(a + B)+ zna - B) 
. 1. 1. 
cosa sin B =~ sin(a + B) ~~ sin(a -有 
A Fe ZAK 
sin(a + 8) = sina cos B + cosa sin B 
sin(a — f) = sina cos B - cosa sin f 
cos(a + $) = cosa cos B - sina sin $ 
cos(a — 8) = cosa cos f + sina sin B 
tana + tan 
tan(a + p) = 20a + tan B 
1- tana tan B 
tana — tan 
una- p- 1 = 0B 
1+ tana tan B 
sin(a + B)sin(a ~ B) = sin? a - sin? B = cos” f - cos’ a 
cos(a + B)cos(a - B) = cos’ a - sin’ B = cos” B - sin’ a 
倍 角 公式 
. . 2tana 
sin2w = 2sina cosa = ——,— 
1l+tan*a@ 
, ， 1-tan’ a 
cos2a = cos’ a - sin’ a = 2cos’ a -1 =1-2sin’ a = 一 一 一 一 
+ tan“ a 
2tan co a~1 
tan2a = 3 ot2a = 
-tana 2cota 
RAAK 


sin’ a = 5100822) sin’ a ~ +Gsina -sin3a) 
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sin4 a = 16 ~4cos2a + cos4a) 
8 
cos’ a = ža +cos2a) cos a = “ Geosa + cos3a) 


cos‘ a = 16 + 4cos2a +cos4a) 


2 1- cos2a 2 1+cos2a 
tan* a = 一 一 一 一 一 cot” a = 一 一 一 一 
1+cos2a 1~cos2a 
半角 公式 
. a l- cosa a pes 
sin— =+ | 一 一 一 cos—=+ 
2 2 2 2 
a l-cosa 1-cosa sina 
tan— = + 上 | 一 一 一 = 一 一 一 = 一 一 一 
2 1 + cos CQ sina l+cosa 
a l+cosa tl+cosa sina 
Cot -一 = 二 | 
2 1-cosa sina 1-cosa 
欧 拉 公式 
es = cosa + jsina jev-l 
ja ei ja +e 
sing = - cosa = 
2j 2 
e-e” e™ -1 
tana =- eee) N Pea] 
函数 和 与 函数 差 公式 


sina + sinpB = 2sin7 (a + B)oos (a - $P) 
sina -sin B = 2eos 5 (a + p)sin5(a - B) 
cosa + cos f = 2cos (a + B)cos= (a - B) 


cosa —cos f = -2sin7(a + B)sin (a - B) 


sin(a - B) 


sin(a + B) tana - tan B = 一 一 一 一 


tana + tan f = 
cosa cos f cosa cos f 
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习 反 向 传播 算法 ) 120-136 
backpropagation with adaptive slopes of activation 
functions (其 有 自 适 应 沿 活 国 数 斜 度 的 反 向 传 
播 )，129-132 
conjugate gradient backpropagation for the feedforward 
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with nonlinearly transformed inputs (具有 非 线 性 变换 
iA), 49-50 
Adaptive modular architecture ( 自 适 应 模块 体系 结构 ) 443 
Adaptive principal-component extraction(APEX) 
algorithm ( 自 适 应 主 成 分 提取 算法 ) 411-418 
Adaptive resonance theory(ART) ( 自 适 应 共振 理论 ) 
ARTI, 184-188 


fuzzy 《模糊 的 ) 188-190 
neural networks (神经 网 络 ) ，182-190 
Adaptive resonance theory mapping(ARTMAP),fuzzy (Ĥ 
适应 共振 理论 上 映射， 模糊) 188-190 
Adaptive slopes of activation functions, backpropagation 
algorithms with (激活 函数 的 自 适应 斜 度 ， 反 向 
传播 算法 )，129-132 
Additive noise, spectrum estimation of sinusoids in (加 性 
BPA, Tsk Meee TT), 519-528 
Affine transformations ( 仿 射 变换 )，26 
Algebra. 代数 ， 参 见 linear algebra , Matrix algebra 
Algebraic Lyapunov equation, neurocomputing approach 
for solving (代数 李 雅 普 诺 夫 方程 ， 神 经 计算 的 
解决 方法 ) 326-328 
Algebraic Riccati equation , neurocomputing approach for 
solving (RERE ER, HHA TT AIRY 
2), 329-334 
Algorithms (算法 ) 
adaptive principal-component extraction ( 自 适 应 主 成 
分 提取 )，411-418 
annealing-based global search (基于 退火 的 全 局 搜索 )， 
213 l 
backpropagation ( 反 向 传播 )，7 
accelerated learning (加 速 学 习 )，120-136 
learning (“#2]), 106-119 
recursive least-squares-based (基于 最 小 一 乘 递 昌 )， 
66-67, 126-129 
bigradient (WEEE), 504 
Broyden-Fletcher-Goldfarb-Shanno, 607 
conjugate gradient (4k #iRAHE), 608-610 
decorrelating (去 相关 )，400, 411 
discrete-time Hopfield network training (离散 时 间 的 
霍 普 菲 乐 德 网 络 训练 )，203 
fast fixed-point for ICA (用 于 iCA 的 快速 固定 点 )， 
512-519 
Fletcher-Reeves conjugate gradient (Fletcher-Reeves 
HARE), 352.609 
generalized Hebbian (J~ XHebb), 407-410 
learning,for neural network adaptive estimation of 
principal components (学 习 ， 用 于 神经 网 络 自 适 
应 主 成 分 估计 ) ，400-426 
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Levenberg-Marquardt, 132-136 
LMS, 36-44 
modified LMS (修正 的 LMS)，68 
LQV1, 176 
modified Newton method (改进 的 牛顿 法 )，606-607 
modified relaxation (修正 的 松弛 )，58 
Newton’s optimization (牛顿 最 优化 )，132 
Nguyen and Widrow's initialization (Nguyen 和 初始 化 和 
Widrow 和 初始化)，111 
parallel APEX (并 行 的 APEX)，411-414 
PLSRI Calibration (PLSR1 校 准 )，436-439 
PLSRI prediction (PLSR1 预 测 } 439-442 
Quasi-Newton methods ( 拟 和 牛顿 法 ) 607 
recursive least-squares version of the back propagation 
( 反 向 传播 的 递归 最 小 二 乘 形式 )，127-129 
reestimation (重新 估计 )，400 
robust PLSNET calibration ($ @PLSNETE YE), 
450-454 
robust learning algorithm for solving systems of 
equations with noise (用 于 求解 具有 噪声 的 方程 
组 的 和 鲁 棒 学 习 算法 ) 358 
search-then-converge (搜索 然后 收敛) 41,115-116 
simulated annealing global search (模拟 退火 全 局 搜 
索 )，213 
standard backpropagation (标准 反 向 传播 )，110 
stochastic gradient ascent (随机 梯度 圭 升 )，410-411 
training (训练)，123-126 
for training counter propagation networks (用 于 训练 
对 传 网 络 )，138 
for training full propagation networks (用 于 训练 完 
传播 网 络 ) ，140 
vector matrix form of the backpropagation ( 反 向 传播 
RIR ak BE ZK), 119 
Analog artificial neural networks 〈 类 似 人 工 神经 网 络 ) , 
342 
Analysis, 参 见 Iindependent-component analysis; Multivariable 
analysis; Principal-component analysis 
Angle-sum and angle-difference formulas (角度 和 与 角度 
FHAR), 630 
Annealing (退火 ) 
defined (退火 定义 ) ，211 
simulated (模拟 ) 209-215 
Annealing-based global search algorithm (基于 退火 的 全 
局 搜索 算法 ) 213 
ANN， 参 见 Artificial neural networks 
Anti-Hebbian synaptic activity ( 反 Hebbian 突 触 活动 )，71 
Antidiagonals (反对 角 线 )，586-587 
APEX， 参 见 Adaptive principal-component extraction 


algorithm 


Application phase (应 用 阶段 )，293 
Applications (应 用 )，243-632 
case studies (案例 研究 )，529-539 
estimation of glucose concentrations from synthetic 
NIR data (来 自 人 工 NIR 数 据 的 葡萄 糖 浓度 估 
it), 529-534 
event classification using infrasonic data (使 用 次 声 
数据 的 事件 分 类 ) 534-539 
for identification, control, and estimation ( 用 于 识别 、 
控制 和 估计 ) ，468-549 
for optimization problems (最 优化 问题 ) 243-291 
for solving linear algebraic equations (求解 线性 代 
数 方程 组 ) 342-394 
for solving matrix algebra problems (求解 算 阵 代数 
问题 )，292-341 
statistical methods (统计 方法 )，395-467 
Approximation 《近似 ) 40,173 
mean-field (平均 场 )，221 
ARMA models (ARMA 模 型 ) 
linear system identification with (线性 系统 识别 )， 
470-473 
nonlinear ( 非 线性 ) ，479-484 
APT See Adaptive resonance theory 
APTI (参看 自 适应 共振 理论 ART1) 184-188 
Artificial neural networks (人 工 神经 网 络 )}，3-5, 25 
analog (类 似 物 )，342 
Artificial neurons (人 工 神 经 元 ) 
basic models of (基本 模型 ) 25-27 
Hopfield model of ( 霍 普 菲尔德 模型 )，33-35 
nonlinear ( 非 线 性 )，25-26 
ARTMAP. See Adaptive resonance theory mapping (参看 
自 适应 共振 理论 映射 ) 
Association (联想 )，3 
Association area (联想 区 域 )，56 
Associative memory (联想 记忆 )，98,199 
Hopfield ( 埠 普 菲尔德 )，34,199-209 
linear distributed, general (线性 分 布 ，-… 般 )，98-99 
Associative memory networks (联想 记忆 网 络 ) 97-106 
correlation matrix (相关 矩阵 ) 100-104 
error correction approach for (误差 修正 方法 ) 104-106 
Assumed system dimensions (很 设 系统 维 数 ) 473 
Attractors (吸引 子 ) 200 
Augmented Lagrange multiplier methods ( 增 广 的 拉 格 朗 
日 乘 子 法 )，281-286 
Autoassociative memory ( 自 联想 记忆 )，98 
Autocorrelation function (自修 正 困 数 ) 622 
Autoregressive moving average models ( 自 回归 请 动 平均 
模型 ) 469-470 





Autovariance function { 自 方差 函数 )，623 
Average. See Moving average models (平均 ， 参 看 请 动 
平均 模型 ) 


B 


Backpropagation ( 反 向 传播 ) 
with adaptive slopes of activation functions (具有 自 适 
应 斜 度 的 激活 函数 )，129-132 
conjugate gradient (Jt Hath), 120-126 
Backpropagation learning algorithms ( 反 向 传播 学 习 算 
法 )，7,106-119 
accelerated (加 速 的 ) 120-136 
batch updating (批量 更 新 ) 114-115 
with variable learning rate (具有 可 变 学 习 率 )，116 
for the feedforward multi-layer perceptron (Aiii £ B 
感知 器 ) 106-110 
with momentum updating (具有 动量 项 的 更 新 )，113-114 
practical issues in using standard (在 使 用 (标准 算法 ) 
册 的 实际 问题 )，110-113 
recursive least-squares-based (基于 最 小 二 乘 递 归 )， 
66-67,126-129 
search-then-converge method (搜索 然后 收敛 方法 )， 
115-116 
vector-matrix form of (向 量 人 矩阵 形式 )，117-119 
Backpropagation learning rule ( 反 向 传播 学 习 规 则 )，36 
Band matrices 〈 带 状 和 矩阵 ) 585-586 
Batch learning (批量 学 习 ) 488 
Batch updating algorithms (批量 更 新 算法 ) 114-115 
case-dependent 《范例 依赖 )，115 
with variable learning rate (可 变 学 习 率 )，116 
Bell-shaped curve ( 钟 形 曲 线 )，168 
BFGS. See Broyden-Fletcher-Goldfarb-Shanno algorithm 
(BFGS， 参 看 BFGS 算 法 ) 
Bigradient algorithm (RRA), 504 
Binary function (二 值 国 数 ) 27 
Binary sigmoid function (二 值 S 形 国 数 ) 30-31 
Biological neural networks (生物 神经 网 络 ) ，13-18 
Bipolar function (WIRA), 27 
Bipolar sigmoid function (WESH AR), 31-33 
Boltzmann-Gibbs distribution ( 玻 尔 兹 曼 - 吉 布 斯 分 布 )， 
211-212 
Boltzmann machine ($W RZL), 215-221 
Brain, as a computer (人 了 脑 ， 好 像 -一 个 计算 机 )，4 
Broyden-Fletcher-Goldfarb-Shanno(BFGS) algorithm 
(BFGS 算 法 ) 606 


C 


Calculus. See Matrix calculus ( 微 积分 ， 参看 矩阵 微 
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积分 ) 
Calibration ,of PLSNET (校准 )，442-446 
Calibration algorithms (校准 算法 ) 436 
Calibration model (校准 模型 ) 426 
CAM. See Content-addressable memory (参看 内 容 可 寻 
址 存储 器 ) 
Case studies (案例 研究 )，529-539 
estimation of glucose concentrations from synthetic 
NIR data (来 自 人 工 NIR 数 据 的 葡萄 糖 浓 度 估 
it), 529-534 
event classification using infrasonic data (利用 次 声 数 
据 的 事件 分 类 ) 534-539 
Category representation field (类 别 表示 域 ) 182 
Cauchy-Schwartz inequality ( 柯 西 一 施 瓦 获 不 等 式 )， 
S72 
Cayley-Hamilton theorem ( 凯 菜 一 哈密 顿 定理 )，564 
Cell assemblies (单元 集合 )，69 
Centering ,mean (中 心 ， 均 值 )，80 
Central moments (Hb), 618 
Cepstrum, complex ( 倒 谱 ， 复 数 的 )，83 
Chain rule ( 链 式 规则 )，593-594 
Chebyshev norm ( 切 比 雪夫 范 数 ) 572 
Chemometrics (化 学 计量 学 ， 化 学 统计 学 ) ，395- 
396,426 
Circulant matrices (循环 矩阵 ) 585 
Class labels (类 别 标 签 ) 175 
Classical least-squares(CLS) (经 典 的 最 小 二 乘法 ) 427- 
429 
regression (E114), 530-532 
Classifier, maximum-likelihood Gaussian (分 类 器 ， 最 大 
似 然 高 斯 明 数 )，56 
CLS. See Classical least-squares (CLS, 参看 经 典 的 最 小 
二 乘法 ) 
Co-occurrence, standard Hebbian (并 发 , 标准 Hebb 规 则 )， 
402 
Coding process, complement (编码 过 程 ， 补 码 )，188 
Collective emergent properties (集体 涌现 特性 )，199 
Companion matrix (伴随 矩阵 ) 571 
Complement coding process ( 补 码 过 程 )，188 
Complex cepstrum ( 复 倒 谱 )，83 
Complex square matrices, summary of important 
properties for (复数 方 阵 ， 重 要 性 质 小 结 ) ， 
583-584 
Concentration values (中 心 值 )，429 
Condition number. See Matrix condition number (条 件数 ， 
参看 矩阵 条 件数 ) 
Conditional probabilities (条 件 概率 )，614-615 
Configuration network (结构 网 络 )，111-112 
Conjugate gradient method (Jt PER HH), 608-610 
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backpropagation for the feedforward multilayer perceptron 
(前 馈 多 层 感知 器 的 反 向 传播 ) 120-126 
applied to solving normal equations (用 于 求解 正规 
方程 组 ) 122-123 
normal equations for the linear combiner (线性 组 合 
器 的 正规 方程 )，121-122 
training algorithm 《训练 算法 )，123-126 
learning rule for solving systems of linear equations 
(求解 线性 方程 组 的 学 习 规则 )，351-354 
Conjugate vectors ,orthogonal and unitary matrices and 
- CSE pera, TE 3c 4 ABE), 560-561 
Conjunctional mechanisms 《连接 机 制 )，71 
Connection weights (连接 权 值 )，412-413 
Constant ,search time (常量 ， 搜 索 时 间 )，41 
Constrained nonlinear programming (约束 非 线 性 规划 )， 
610-613 
Kuhn-Tucker conditions (〈 库 四 一 塔 克 条 件 ) ，610-611 
Lagrange multiplier methods ( 拉 格 朗 日 乘 子 方法 )， 


611-613 
Content-addressable memory(CAM) ( 按 内 容 可 寻 址 存储 
器 )，34,199 


Context units (上 下 文 单元 ) 222 
Continuous derivatives (连续 导数 )，59 
Control (控制 ) 
direct vs. indirect (直接 与 间接 ) ，493-494 
neurocomputing applications for (神经 计算 应 用 )， 
468-549 
of nonlinear dynamic systems ( 非 线 性 动力 系统 )， 
484-499 
autoregressive moving average models 〈 自 回归 滑动 
平均 模型 ) 469-470 
identification of linear systems with ARMA models 
(具有 ARMA 模 型 的 线性 系统 识别 ) ，470-473 
identification of nonlinear systems ( 非 线 性 系统 识 
Bil), 484-491 
independent-component analysis ,blind separation of 
unknown source signals (独立 成 分 分 析 ， 未 知 源 
ASANA), 500-519 
linear system representation (线性 系统 表示 )，468- 
469 
nonlinear control ( 非 线 性 控制 )，492-499 
nonlinear system representation ( 非 线 性 系统 表示 )， 
477-484 
other case studies (其 他 情形 研究 ) 529-539 
parametric system identification of linear systems 
using PLSNET (使 用 PLSNET 的 线性 系统 的 参数 
系统 识别 ) 473-477 
spectrum estimation of sinusoids in additive noise 


(加 性 噪声 的 正弦 谱 估 计 )，519-528 


Controllability matrix (aJt), 569 
Controllable canonical form (可 控 性 正则 形式 )，571 
Convergence, speed of (Kk, iR), 112-113 
Convergence phase (Wc@xBrFt), 115,169 
Correction, absolute 修正， 绝对 的 ) 55 
Correlation {相关 ) 

learning rule (学 习 规则 ) 76-77 

matrix memory (EBET fig), 100-104 
Correlation coefficient (相关 系数 ) ，623-624 
Correlation matrix 〈 相 关上 矩阵 ) 624 
Correlational mechanisms (相关 机 制 )，71 
Counterpropagation networks (对 传 网 络 ) 136-140 

full (全 )，138-140 

training (训练 )，138 
Covariance matrix 〈 协 方差 矩阵 ) 624 
Cross-validation. (交叉 确认 ) ，434 
Crosstalk (〈 串 音 )，101 


D 


Damping parameter (阻尼 参数 ) 278 
Data compression (数据 压缩 )，396，399 
Data matrix (数据 矩阵 )，343 
Data preprocessing (数据 预 处 理 )，79-85，536-539 
Fourier transform {( 傅 里 叶 变 换 )，81-83 
partial least-squares regression (部 分 最 小 二 乘 回归 )，84 
principal component analysis ( 主 成 分 分 析 )，83-84 
scaling (规模 )，80-81 
transformations (变换 )}，81 
wavelets and wavelet transforms (小 波及 小 波 变 换 )， 
84-85 
Dead zone ( 死 区 )，57 
Decomposition; See also Eigenvalue decomposition ;LU 
decomposition (分 解 ， 参 看 特征 值 分 解 ，LU 分 
解 ) 
generalized singular-value (广义 奇异 值 )，367 
orthogonal ,linear regression with ( 正 交 ， 线 性 同 归 )， 
482-483 
Schur, 311-313 
singular-value (奇异 值 )，320-325，574-577 
Deconvolution ,homomorphic ( 解 卷 积 ， 同 态 ) 83 
Decorrelating algorithms (去 相关 算法 ) 400, 411 
Definiteness. See Matrix definiteness (定性 的 ， 参 看 矩阵 
定性 ) 
Degeneracy (退化 ) 562 
Delta rule (Detta 规 则 )，35 
Derivatives ,continuous (导数 ， 连 续 的 ) 59 
Descent. See Steepest descent (下 降 ， 参 看 最 速 下 降 ) 
Desired probabilities (期 望 概率 )，220 
Difference equations (差分 方程 组 )，34 








Differential of scalar functions ,with respect to a matrix 
(标量 函数 关于 矩阵 的 微分 )，595-596 

Differentiation of scalar functions ,with respect to a vector 
(标量 函数 关于 向 量 的 微分 )，594-595 

Direct control (直接 控制 )，493-494 

Discrete Picard condition(DPC) (离散 皮卡 条 件 (DPC))， 
365-366 

Discrete-time methods, for solving linear algebraic 
equations, iterative (离散 时 间 方 法 ， 用 于 求解 线 
性 代数 方程 组 ， 和 迭代 ) 370-375 

Distributed information, in neural networks (分 布 式 信息 ， 
在 神经 网 络 内 ) 5 

Distributed time-lagged feedforward neural 
networks(DTLFNN) (4) 7 AIbi Hi Bd HHS W 
络 ) 222,228-231 

Disturbance. See Minimal-disturbance principle (扰动 ， 
看 最 小 扰动 原理 ) 

Divide-and-conquer characteristics (分 治 性 质 ) 210 

Dominated membership function (Rk Až), 629 

Double-angle formulas ( 倍 角 公式 ) 630 

DPC. See Discrete Picard condition (DPC。 参 看 离散 皮 
卡 条 件 ) 

DTLFNN. See Distributed time-lagged feedforward neural 
networks (DTLFNN, #44 HK # at iA 
网 络 ) 

Duality gap (对 偶 间 隔 ) 247 

Dynamical systems, state-space description of (动态 系统 ， 
状态 空间 描述 ) , 566-571 


E 


Eigenvalue decomposition(EVD) (特征 值 分解 ) 313- 
314 
Eigenvalue problem (特征 值 问 题 , 最 大 /最 小 ) ， 
min/max, 317-320,379 
Eigenvalues (特征 值 )，561-564 
generalized ( 广 闵 的 )，562 
nondistinct (不 相 异 的 )，562 
Eigenvectors (特征 向 量 )，561-564 
first principal (第 -一 原则 )，402-403 
Elman network (Elman 网 络 )，222-226 
Emergent properties ‚collective (涌现 性 质 ， 集 体 的 ) ， 
199-200 
Energy function (能 量 函 数 ) 
instantaneous (瞬时 的 )，77 
negative definite (人 负 定 )，349 
Ensemble averaging (总 体 平均 )，618 
Equations (方程 组 )， 
algebraic (代数 的 )， 
linear (线性 的 )，342-394 


Lyapunov, 326-328 
Riccati, 329-334 
difference (差分 ) 34 
Equilibrium states ,spurious (平衡 状态 ， 伪 的 ) 203 
Error correction approach, for correlation matrix 
memories (误差 修正 方法 ， 相 关 和 矩阵 存储 器 ) ， 
104-106 
Error correction rules ,linear (误差 修正 规则 ， 线 性 的 )， 
50-51 
Error surface, instantaneous (BERT, RÆ thi), 39 
Error vector (误差 向 量 ) 430 
Errors, in mapping (误差 ， 在 映射 内 ) 297, 299 
Estimation; See also Frequency estimation; Spectrum 
estimation 《估计 谱 估计 ， 参 看 频率 估计 ) 
of the first principal component, normalized Hebbian 
learning rule of Oja (第 一 主 分 量 ，Oja 的 正规 化 
Hebb 学 习 规 则 ) ，400-404 
of glucose concentrations from synthetic NIR data (人 
工 NR 数 据 的 葡萄 糖 浓 度 ) 529-534 
neural network adaptive ,of principal components ( 神 
经 网 络 自 适 应 性 ， 主 成 分 ) 400-426 
neurocomputing applications for (神经 计算 应 用 )， 
468-549 
of several principal components adaptive principal 
component extraction algorithm (多 个 主 成 分 提 
取 算 法 )，411-418 
generalized Hebbian algorithm (广义 Hebb 算 法 ) ， 
407-410 
stochastic gradient ascent algorithm (随机 梯度 上 升 
算法 ) 410-411 
symmetric subspace learning rule (对 称 子 空间 学 习 
规则 )，404-407 
Euclidean norm ( 欧 几 里 得 范 数 )，572 
Euler’s formulas ( 欧 拉 公 式 )，631 
EVD. See Eigenvalue decomposition (EVD， 参 看 特征 值 
分 解 ) 
Event classification using infrasonic data (利用 次 声 数 据 
的 事件 分 类 ) 534-539 
Exactly determined systems (精确 确定 的 系统 ) 344- 
347 
Excitatory input (兴奋 输入 )，9，70，412 
Expectation (期 望 )，617-620，618 
Extremum ,necessary and sufficient conditions for ( 极 值 ， 


必要 充分 条 件 ) 601-602 
F 


Factor analysis (NHFs #7), 426, 430, 432, 435 
abstract (抽象 ) 435 
Factorization (因子 分 解 ) 
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QR, 305-310 
spectral ( 谱 的 ) 313-314, 625-628 
Fail-soft devices 〈 软 失败 设备 ) 199 
Fast fixed-point algorithm(FFPA) for ICA (快速 固定 点 
算法 (FFPA), A-FICA), 512-519 
“Fast” learning (“快速 ”学 习 )，55，183 
Feature representation field (特征 表示 域 ) ，182 
Feedback (反馈 )，104，198 
in Hopfield networks ( 霍 普 菲尔德 网 络 ) 34 
Feedforward connection weights (前 馈 连 接 权 值 ) 412- 
413 
Feedforward multilayer perceptron (HWS ERME), 
62-64 
conjugate gradient backpropagation algorithms for ( 共 
Je BG HE be HERE), 120-126 
Feedforward networks, temporal (前 馈 网 络 ， 时 间 的 )， 
221-231 
FFPA.See Fast fixed-point algorithm (FFPA ， 参 看 快速 
固定 点 算法 ) 
Fields (48), 550-552 
Filters (72783), 365 
finite impulse response (有 限 冲 击 响应 ) 37,222,228 
linear transversal (线性 横 波 的 ) 37 
Finite impulse response (FIR) filters (47 Bib th ma ky 
(FIR) 滤波 器 )，37, 222, 228 
FIR. See Finite impulse response filters (FIR， 参 看 有 限 
冲击 响应 滤波 器 ) 
Fletcher-Reeves conjugate gradient algorithm (Fletcher- 
Reevesst Hti HER), 352,609 
Forgetting factor (遗忘 因子 )，124,402 
Fourier transform (做 里 叶 变 换 )，81-83 
Frequency estimation, PLSR solution to (频率 估计 ， 
PLSR 解 决 方案 )，524-528 
Frobenius matrix (3p ¥ We B74), 571 
Full degeneracy (完全 退化 ) 562 
Function-sum and function-difference formulas (pH % Fl 
与 国 数 差 公 式 ) 631 
Functions, 589-592; See also Radial basic function neural 
networks (ARK, SHEA ARMS MS ) 
basic activation (基本 激活 ) 27-33 
binary sigmoid (二 值 S 形 )，30-31 
bipolar sigmoid ( 双 极 $S 形 )，31-33 
hyperbolic tangent sigmoid ( 双 曲 正切 S 形 )，31-33 
partition (#47), 21! 
power spectral density (功率 谱 密度 ) 624-625 
probability density (概率 密度 ) 617 
probability distribution (#3447 fi), 616-617 
scalar (标量 ) 
with respect to a matrix 〈 关 于 矩阵) 595-596 


with respect to a vector (关于 向 量 ) 594-595 
scalar kernel (标量 核 )，168 
sets and (#8), 589-592 
Fuzzy ART and fuzzy ARTMAP (模糊 ART 和 模糊 
ARTMAP), 188-190 
Fuzzy LAPART (模糊 LAPART) 190 
Fuzzy set theory (模糊 集合 论 ) 628-629 


G 


Gain matrix (39234684), 570 


Gauss-Seidel iterative method (高 斯 一 赛 德尔 达 代 方法 )， 
371 


Gaussian classifier, maximum-likelihood (高 斯 分 类 器 ， 
最 大 似 然 )，56 

General linear distributed associative memories (一 般 线 
性 分 布 式 联想 记忆 ) ，98-99 

Generalization ( 泛 化 ) 

capability for (能 力 ) 41, 64-5 
process of ($R, R, WK), 45 

Generalized eigenvalues (广义 特征 值 ) 562 

Generalized Hebbian algorithm (广义 Hebb 算 法 ) 407- 
410 

Generalized LMS learning rule (广义 LMS 学 习 规则 ) ， 
64-69 

Generalized perceptron learning rule (广义 感知 器 学 习 规 
则 )，78-79 

Generalized robust approach, for solving systems of linear 
equations corrupted with noise (广义 鲁 棒 方 法 ， 
用 于 求解 噪声 损害 的 线性 方程 组 ) 354-361 

Generalized singular-value decomposition (GSVD) ( 广 
义 奇异 值 分 解 )，367 

Global search algorithm, annealing-based (全 局 搜索 算法 ， 
基于 退火 )，213 

Gradient. See Conjugate gradient method (梯度 ， 参 看 共 
斩 梯 度 方法 ) 

Gradient ascent algorithm, stochastic (梯度 上 升 算法 ， 随 
机 的 )，410-411 

Gram-Schmidt orthogonalization (格拉 姆 ~ 施 密 特 正 交 
化 )，101, 147-148 


H 


Hadamard matrices (阿达 马 矩 阵 ) 588 
Half-angle formulas (半角 公式 )，631 
Hamming error ( 汉 明 误差 )，55 
Hankel matrices ( 汉 克 尔 和 矩阵 ) 586-587 
Hard limiter function 〈 硬 限 幅 函数 ) 27 
symmetric (X{#R), 27 
Hebbian algorithm, generalized (Hebb 算 法 ， 广 义 的 )， 





407-410 
Hebbian co-occurrence, standard (Hebb, Wm), 
402 
Hebbian learning (Hebb 学 习 )，69-73 
Hebbian synapses (Hebb 突 触 )，69-71 
Hessenberg form ( 海 森 伯 格 形式 })，586 
Hessian matrix 〈( 黑 塞 矩 阵 ) 596 
Heteroassociative memory ( 拖 联 想 记 忆 )，98 
Hidden layer (RARER), 62 
Hidden neurons (隐藏 神经 元 ) ，215 
Hilbert matrices 《和 希 尔 伯 特 矩阵 ) 586 
Historical notes (历史 注释 ) 
McCulioch-Pitts neuron (McCulloch-Pitts 神 经 元 )，9-13 
on neurocomputing (神经 计算 )，6-13 
Holder inequality (RAPE), 572 
Homomorphic deconvolution ( 同 态 解 卷 积 ) 83 
Hopfield associative memory ( 替 普 非 尔 德 联想 记忆 ) ， 
199-209 
Hopfield model, of the artificial neuron (HJE RERAN ， 
人 工 神 经 元 ) 33-35 
Hopfield networks ( 霍 普 非 尔 德 网 络 ) 19 
feedback in (反馈 )，34 
Hyperbolic tangent sigmoid function (3% BH IE WISH? FAB) ， 
31-33 


I 


ICA, fast fixed-point algorithm for (ICA， 快 速 固定 点 算 
ik), 512-519 
Identification (识别 ) 
of linear systems, with ARMA models (线性 系统 ， 具 
有 ARMA 模 型 )，470-473 
neurocomputing applications for (神经 计算 应 用 )， 
468-549 
of nonlinear dynamic systems ( 非 线 性 动态 系统 )， 
484-499 
autoregressive moving average models 《自动 回归 请 
动 平 均 模型 ) 469-470 
independent-component analysis (独立 成 分 分 析 ) ， 
500-519 
linear system representation (线性 系统 表示 )，468- 
469 
nonlinear control ( 非 线 性 控制 ) 492-499 
nonlinear system representation ( 非 线 性 系统 表示 
法 )，477-484 
other case studies (其 他 情况 研究 )}，529-539 
parametric system identification of linear systems 
using PLSNET (利用 PLSNET 的 线性 系统 的 参数 
系统 识别 ) 473-477 


Spectrum estimation of sinusoids in additive noise 


主题 索引 479 


(在 加 性 噪声 中 的 正弦 谱 估计 )，519-528 
Identity function, 27; See also Trigonometric identities 
( 恒 等 函 数 ， 也 可 参考 三 角 恒 等 式 ) 
Identity mapping ( 恒 等 映 射 )，297 
IH-posed problems with ill-determined numerical rank, 
regularization methods for (具有 病态 确定 数值 秩 
的 不 适 定 问 题 ， 正 则 化 方法 )，361-370 
Impulse response matrix 《冲击 蚁 应 智 阵 } 568 
Independent-component analysis (独立 分 晤 分析 )，500- 
501 
blind separation of unknown source signals (未 知 源 信 
号 的 育 分 离 ) 500-519 
fast fixed-point algorithm for ICA 《用 于 ICA 的 快速 固 
定点 算法 ) 512-519 
using neural networks (利用 神经 网 络 ) 501-512 
Independent test data (独立 测试 数据 ) 431, 433 
Independent validation (独立 检验 )，112, 434 
Indirect control (间接 控制 )，494-499 
Induced norms of matrices 《第 阵 的 导出 范 数 ) 573 
Inequality constraints (KÆR), 263-265 
Inertia matrices (惯性 矩阵 )，588 
Information, distributed in neural networks {信息 ， 分 布 
在 神经 网 络 中 )，5 
Inhibitory input (抑制 输入 )，9 
Inhibitory synapses 《抑制 突 触 )，70 
nonzero (4E%), 9 
Initialization, of synaptic weights (初始 化 ， 突 触 权 值 )， 
110-111,203 
Inner products (#1), 555-556 
Input layer (A B), 53 
Input space (输入 空间 )}，477 
Input-state-output representation, nonlinear (输入 状态 输 
出 表示 ， 非 线性 )，478-479 
Inputs (输入 ) 
excitatory (兴奋 的 )，9 
inhibitory (抑制 的 ) 9 
nonlinearly transformed 〈 非 线性 变换 ) 49-50 
Instantaneous energy function (HEM GER EAR), 77 
Instantaneous error surface (瞬间 误差 曲面 ) 39,59 
Intensities, matrix of (388, pE), 431 
Interactive mechanisms (交互 机 制 )，7i 
Internal potential (内 部 位 势 )，75 
Inverse Laplace transform (hive Hee HR), 567 
Inverse of a matrix (46—FAIH), 293-300,557-560 
Inverse of partitioned matrices (47D. aREAII), 579-580 
Inversion lemma, matrix (sR351F#, SRE), 126 
Iterative methods (GALA HK), 370-375 


J 


Jacobi iterative method (FEA LEIGH WH). 370-371 
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Jacobian matrix (HEU tEIERE), 134,597 
Joint probabilities (联合 概率 ) 614 
Jordan canonical form ( 若 尔 当 标准 形 ) 565-566 


K 


Kahan matrices (Kahang), 589 
Kernel function, scalar (A, rhc), 168 
Key input pattern (关键 输入 模式 ) 98 
Kohonen self-organizing map (Kohonen 自 组 织 映射 )， 
166-172 
Kronecker delta (4 PÅTA), 396 
Kronecker product and sum ($ PA SBS A), 581-583 
Kuhn-Tucker conditions ( 库 恩 -- 塔 克 条 件 )，610-611 
Kurtosis ( 峭 度 )，504 
negative vs. positive ( 负 的 与 正 的 )，504-505 


L 


Li-norm (least-absolute-deviations)neural network for 
solving linear equations (求解 线性 方程 组 的 L 范 
数 (最 小 绝对 偏差 ) 神经 网 络 )，381-384 ， 
L,-norm (minimax)neural network for solving linear 
equations (求解 线性 方程 组 的 L- 范 数 (最 小 最 大 ) 
神经 网 络 ) ，379-381 
Lagrange multiplier methods ( 拉 格 朗 日 乘 子 法 ) 277- 
281，611-613 
augmented ( 增 广 ) 281-286 
convergence of (Hk), 284 
LAPART. See Laterally primed adaptive resonance theory 
(LAPART， 参 看 侧 向 基本 自 适应 共振 理论 ) 
Laplace transform ( 拉 普 拉 斯 转换 )，567 
Latent variable vector ( 隐 式 变量 向 量 )，437 
Latent variables ( 隐 式 变量 )，431 
Lateral connection weights ( 侧 向 连接 权 值 )，412 
Laterally primed adaptive resonance theory (LAPART) 
( 侧 向 基本 自 适应 共振 理论 )，189-190 
Layers. See Multilayer perceptron; individual layers (4, 
参看 多 层 感知 器 ， 各 层 ) 
Learning; See also Training (学 习 ， 也 可 参看 训练 ) 
by example (例子 )，4 
“fast” vs. “slow”(“ 快 ”相对 于 “ 慢 ”)，55,183 
Hebbian, 69-73 
pattern vs. batch ( 单 模式 相对 于 集中 式 ) 488 
supervised (监督 )，106,174 
unsupervised (无 监督 )，165 
Learning algorithms; See also Backpropagation learning 
algorithms (学 习 算法 ， 也 可 参看 反 向 传播 学 习 
算法 ) 
for Boltzmann machine ( 玻 尔 兹 曼 机 )，220-221 








estimation of several principal components (多 个 主 分 
BAIT), 404-418 
adaptive principal component extraction algorithm 
( 自 适应 主 成 分 提取 算法 ) 411-418 
generalized Hebbian algorithm (广义 Hebbian 算 法 )， 
407-410 
stochastic gradient ascent algorithm (随机 梯度 上升 
Wee), 410-411 
symmetric subspace learning rule (对 称 子 空间 学 习 
规则 ) 404-407 
estimation of the first principal component, normalized 
Hebbian learning rule of Oja (第 -一 主 成 分 估计 ， 
正规 化 的 Hebb 的 Qja 学 习 规 则 )，400-404 
Kohonen self-organizing map (Kohonen 自 组 织 映射 )， 
166-172 
for neural network adaptive estimation of principal 
components (用 于 神经 网 络 的 主 成 分 自 适应 估 
计 )，400-426 
nonlinear principal component analysis and robust PCA 
( 非 线性 主 成 分 分 析 和 和 鲁 棒 PCA) ，418-426 
Learning process, postulating from a neurobiological viewpoint 
(学 习 过 程 ， 从 神经 生理 观点 的 假定 )，6 
Learning rate parameter (学 习 率 参数 ) ，40,42 
Learning rules; See also Oja’s learning rule (学 习 需 则 ， 
也 可 参看 Dja 学 局 规 则 ) 
backpropagation (pm fE), 36 
conjugate gradient (JE SUHBRE). 351-354 
correlation of (相关 性 ) 76-77 
generalized (广义 ) 
LMS (最 小 均 方 )，64-69 
perceptron (感知 器 ) 78-79 
Hebbian, 69-73 
least mean-square (LMS) (最 小 均 方 )，36-44 
Oja’s, 73-75 
perceptron 感知 器 
generalized (广义 的 ) 78-79 
standard (标准 )，77-78 
PLSNET-C, 442-446 
potential (潜在 ,潜能 )，75-76 
for a single neuron (单个 神经 元 ) 64-79 
symmetric subspace (对 称 子 空间 ) ，404-407 
Widrow-Hoff, 35-37 
Least mean-square (LMS) learning rule (最 小 均 方 学 > 
规则 ) 
algorithm for (算法 ) 36-44 
generalized (广义 的 ) 64-69 
Least-squares correction (最 小 二 乘 修正 ) 377 
Least-squares solution of systems of linear equations (2% 


性 方程 组 的 最 小 二 乘 解 ) 345-346 





neurocomputing approach for (神经 计算 方法 ) 346- 
351 
Lemma, matrix inversion (51, 4R), 126 
Levenberg-Marquardt algorithm (Levenberg-Marquardt# 
法 ) 132-136 
Limited-step Newton formula (有 限 步 牛顿 公式 ) 606 
Limiter function, hard (限制 函数 ) 27 
Linear algebra 〈 线 性 代数 ) 550-589 
eigenvalues and eigenvectors (特征 值 和 特征 向 量 )， 
561-564 
fields and vector spaces 〈 域 和 向 量 空间 ) 550-553 
inner and outer products (内 积 和 外 积 ) 555-556 
inverse and pseudoinverse of a matrix (ERER FIt 
3), 557-560 
Jordan canonical form ( 若 当 标准 形 ) 565-566 
Kronecker product and sum ( 克 罗 内 克 积 与 和 )，581- 
583 
linear independence of vectors (向 量 的 线性 独立 )， 
556 
matrix condition number (4684 4 fF#), 577-578 
matrix definiteness (BERIETE), 557 
matrix representations and operations (矩阵 表示 和 运 
算 ) 553-555 
orthogonal and unitary matrices，and conjugate vectors 
(E26 FO PRE, SEBEL). 560-561 
partitioned matrix operations (分 区 入 阵 运算 )，578- 
581 
patterned and special matrices 《模式 和 特殊 和 矩阵 ) ， 
585-589 
rank of a matrix and linear independence (矩阵 的 秩 和 
线性 独立 ) 557 
similarity transformations (相似 变换 ) 564-565 
singular-value decomposition (奇异 值 分 解 )，574-577 
state-space description of dynamical systems (动态 系 
统 的 状态 空间 描述 )，566-571 
summary of important properties for real and complex 
square matrices (关于 实 的 和 复 的 方 阵 的 重要 特 
征 概述 )，583-584 
vector and matrix norms 〈 向 量 和 和 矩阵 范 数 )，571-S74 
Linear algebraic equations (线性 代数 方程 组 ) 342-394 
conjugate gradient learning rule for solving systems of 
(OR A FA SEAS SE HEB PE AH OT BU), 351-354 
corrupted with noise, generalized robust approach for 
solving systems of (噪声 污染 ， 求 解 系统 的 广义 
鲁 棒 处 理 方法 ) 354-361 
L,-norm(least-absolute -deviations)neural network for 
solving (利用 乙 范 数 〈 最 小 绝对 偏差 ) 神经 网 络 
求解 ) 381-384 


Læ-norm(minimax)neural network for solving (Fi FAL. 
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范 数 〈 最 小 最 大 ) 神经 网 络 求解 )，379-381 
least-squares neurocomputing approach for solving 
systems of (求解 系统 的 最 小 二 乘 神经 计算 方法 )， 
346-351 
least-squares solution of systems of (系统 的 最 小 一 乘 
RE), 345-346 
matrix splittings for iterative discrete-time methods for 
solving (4 FERES RAI Bs BY Ud a AC OR 
Rg), 370-375 
regularization methods for ill-posed problems with ill- 
determined numerical rank (具有 病态 确定 数值 
秩 的 病态 问题 的 正则 化 方法 ) 361-370 
solving with neural networks (用 神经 网 络 求解 )， 
342-394 
systems of simultaneous (并 行 系统 )，343-344 
total least-squares problem (总 最 小 二 乘 问题 )，375- 
378 
Linear combiner (线性 组 合 器 )，45 
simple adaptive ,and the LMS algorithm (简单 自 适 应 ， 
LMS 算 法 )，36-44 
Linear distributed associative memories ,general (线性 分 
布 式 联想 记忆 ， 一 般 的 )，98-99 
Linear error (线性 误差 )，45 
correction rules (修正 规则 )，50-51 
Linear function (线性 函数 )，27 
Linear independence of vectors (向 量 的 线性 独 并 )，556 
rank of a matrix and 《年 阵 的 秩 ) 557 
Linear programming(LP)problems, neural networks for 
(线性 规划 问题 ， 神 经 网 络 ) 244-256 
the nonstandard form ( 非 标准 形式 ) 250-256 
the standard form (标准 形式 }，247-250 
Linear regression, with orthogonal decomposition (线性 
IVA, FAIR 2857 fF), 482-483 
Linear separability 〈 线 性 可 分 性 ) 46-48 
Linear systems (线性 系统 ) 
driven by white noise and spectral factorization (由 白 
噪声 和 谱 因 子 分 解 驱动 的 ) 625-628 
identification with ARMA models (具有 ARMA 模 型 的 
识别 ) 470-473 
parametric system identification using PLSNET (利用 
PLSNET 进 行人 参数 系统 识别 )，473-477 
representation of (表示 )，468-469 
Linear transversal filters (线性 横向 滤波 器 )，37 
Lipschitz continuous ( 利 普 希 茨 连 续 )，591 
Loading vectors (装载 向 量 ) 431, 437-439 
Local mechanisms (局 部 机 制 ) 70-71 
Local minima of networks (网 络 的 局 部 极 小 )，209，258 
Local-minimum property (局 部 极 小 特征 ) ，283-284 
Long-term memory (长 期 记忆 )，98 
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LP problem. See Linear programming problems (LPJ, 
参看 线性 规划 问题 ) 

LU decomposition (LU 人 分解) 301-305 

LVQ,self-organizing map and (LVQ， 自 组 织 喘 射 )， 
180-182 

LVQ1，MATLAB function for (LVQ1，MATLAB 国 数 )，179 

Lyapunov equation, neurocomputing approach for solving 
the algebraic ( 李 雅 普 诺 夫 方程 ， 求 解 代数 的 神 
经 计算 方法 ) 326-328, 348 

Lyapunov’s direct method ( 李 雅 普 诺 夫 直接 方法 )，598-600 


M 


Madaline (多 重 自 适应 线性 单元 ) 7, 52-55 

Magno ganglion cells (Magno 中 心细 胞 ) 14 

Mahalanobis distortion ( 马 哈 拉 诺 比 斯 失真 )，173 

Mapping error (映射 误差 )，297，299 

Mapping networks, 96-152; See also Kohonen self- 
organizing map (映射 网 络 ， 参 看 Kohonen 自 组 


织 映 射 ) 

associative memory networks (联想 记忆 网 络 )，97- 
106 

backpropagation learning algorithms ( 反 向 传播 学 -j 算 
法 )，106-119 


accelerated (加 速 )，120-136 
counterpropagation (对 传 ) 136-140 
radial basic function neural networks (74 [A] Æ; rR Be tH 
经 网 络 ) 140-152 
Marginal probabilities (边缘 概率 ) 614 
Marquardt. See Levenberg-Marquardt algorithm 
(Marquardt ， 参 看 Levenberg-Marquardt 算 法 ) 
Mathematical foundation for neurocomputing (神经 计算 
的 数学 基础 )，550-632 
constrained nonlinear programming (约束 非 线 性 规 
划 )，610-613 
fuzzy set theory (模糊 集合 论 ) 628-629 
linear algebra (线性 代数 ) 550-589 
Lyapunov’s direct method ( 李 雅 普 诺 夫 直接 方法 )， 
598-600 
principles of multivariable analysis ( 多 变量 分 析 原 理 )， 
589-598 
random variables and stochastic processes, 613-628 
(随机 变量 和 随机 过 程 ) 
selected trigonometric identities (部 分 三 角 恒 等 式 )， 
629-631 
unconstrained optimization methods 〈 非 约束 优化 方 
法 )，601-610 
Matrices (4EB), 553-554 
adding and subtracting (加 和 减 )，554 





data {数据 )，343 
diagonal (对 角 )，555 
differential of scalar functions with respect to (关于 标 
eA BADGES?) , 595-596 
Hessian, 596 
identity (单位 阵 )，555 
induced norms of (导出 范 数 )，573 
of intensities (强度 )，431 
inverse and pseudoinverse of (gw 4#{4i#), 293-300, 
557-560 
inverse of partitioned (分 区 逆 )，579-580 
Jacobian, 134, 597 
mixing (混合 ) 501 
multiplying (Æ), 554 
orthogonal, and conjugate vectors (iE 4, JE Milt), 
560-561 
patterned (组 成 图 案 的 ) 585-589 
power spectral density (功率 谱 密 度 ) 624-625 
rank of (FE), 557 
reat and complex square, summary of important 
properties for ( 实 的 和 复 的 方 阵 ， 重要 性 质 的 概 
要 )，583-584 
special (特殊 的 ， 专 门 的 )，585-589 
symmetric (APR), 555 
transposing ($48), 555 
weighting (ft), 66 
Matrix algebra (年 阵 代 数 ) 292-341 
decomposition (分 解 ) 
eigenvalue (特征 值 )，313-314 
LU, 301-305 
Schur, 311-313 
singular-value (奇异 值 ) 320-325 
factorization (因子 分 解 ) 
QR, 305-310 
spectral (}#), 313-314 
Lyapunov equation, neurocomputing approach for 
solving ( 李 雅 普 诺 夫 方 程 ， 神 经 计算 方法 几 于 
求解 )，326-328 
pseudoinverse of a matrix ( 知 阵 的 伪 逆 )，293-300 
Riccati equation , neurocomputing approach for 


solving (里 卡 蓄 方程 ， 神 经 计算 用 于 求解 )， 


329-334 
symmetric eigenvalue problem (对 称 特征 值 问题 ) ， 
313-314 
neural network approach for (神经 网 络 方法 ) 315- 
320 


Matrix calculus (REWIR ) 594-596 
differential of scalar functions with respect to a matrix 


(Fn BL BA BON SABE RM), 595-596 








differentiation of scalar functions with respect to a 
vector ($7 ik FA BM el EK fy), 594-595 
Matrix condition number ( 知 阵 条 件数 )，577-578 
Matrix definiteness (和 矩阵 的 定性 }，557 
Matrix determinant (#ibE77 73K), 579 
Matrix exponential function ( 惩 阵 指数 函数 ) 567 
Matrix inversion (BER), 126, 294-29 
Matrix memory, correlation of (HiBFi24Z, FASE), 100-104 
Matrix norms (488 7%), 571-574 
Matrix operations, partitioned (和 矩阵 运算 ， 分 块 )，578-581 
Matrix representations and operations (矩阵 表示 和 运算 ) , 
553-555 
partitioned (4y32), 578-581 
Matrix splittings , for iterative discrete-time methods for 
solving linear equations (矩阵 分 裂 ， 求 解 线性 方 
程 组 的 离散 时 间 和 迭代 方法 )，370-375 
Maximum-likelihood Gaussian classifier (最 大 似 然 高 斯 
Sy RA), 56 
Mays’s perceptron learning rules (Mays 感 知 器 学 习 规 
则 )，57-58 
McCulloch-Pitts neuron (McCulloch-Pitts 神 经 元 ) 9-13, 
200 
a two-state device (两 个 状态 的 装置 )，9 
Mean centering (平均 中 心 ) 80 
Mean-field approximation (平均 场 近似 )，221 
Mean square error(MSE) ( 均 方 误差 )，120 
Mean values (均值 )，617-620 
Measurement data (MBH), 395 
Memorized patterns (存储 模式 ) 96-97, 100 
reconstructing optimally (Ai E), 105 
Memory (记忆 ， 存 储 ) 
associative (联想 ) 98, 199 
autoassociative 〔 自 联想 ) ，98 
content-addressable (AA Bl ut), 34, 199 
heteroassociative ( 异 联想 ) 98 
long-term vs. short-term (长 期 与 短期 )，98 
Memory networks 《记忆 网 络 ) 
associative (联想 的 )，97-106 
correlation matrix (相关 知 阵 )，100-104 
error correction approach for correlation matrix ( 相 
关 握 阵 的 误差 修 正方 法 ) 104-106 
general linear distributed ( -- 般 的 线性 分 布 ) 98-99 
capability of (能 力 ， 容 量 ) ，97 
MIMO. See Multiple-input, multiple-output systems 
(MIMO， 参 看 多 输入 多 输出 系统 ) 
Min/max eigenvalue problem (最 小 /最 大 特征 值 问题 )， 
317-320, 379 
Minima of networks, local (网 络 的 最 小 值 ， 局 部 );，209 
Minimal-disturbance principle (最 小 扰动 原理 ) 51.55 
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Minimal! realization system parameters 【最 小 实现 系统 参 
数 )，476 
Mixed constraints (AHIR), 254-256, 265-268 
Mixing matrix (混合 矩阵 )，501 
MLP. See Multilayer perceptron (MLP， 参 看 多 层 感知 器 ) 
Models (模型 ) 
of artificial neurons (人 工 神经 网 络 )，25-27, 33-35 
autoregressive moving average (A UAH APE), 
469-470 
Hopfield, 33-35 
linear system identification with ARMA (具有 ARMA 
的 线性 系统 识别 ) 470-473 
Modified Newton methods (改进 的 牛顿 法 ) 606-607 
Modified relaxation algorithm (修改 的 松弛 算法 ) 58 
Moments (#7), 617-620 
Momentum (动量 ) 
adding parameter for (增加 参数 ) 66 
backpropagation learning algorithm with updating (44 
有 更 新 的 反 向 传播 学 习 算法 ) 113-114 
Moore-Penrose inverse (Moore-Penrose), 362 
Moving average models, autoregressive (滑动 平均 模型 ， 
AEH), 469-470 
MSE. See Mean square error (MSE， 参 看 均 方差 误差 ) 
Multilayer perceptron(MLP) (4% AR R18 ) 
feedforward (前 向 反馈 }，62-64 
trained by BP 《出 BP 训练 )，532-533 
Multiple Adaline (Madaline) (多 重 自 适 应 线性 单元 ) 7, 
52-55 
Multiple-input,multiple-output(MIMO) systems (多 输入 ， 
多 数 出 (MIMO) 系 统 )，484 
Multiplier methods, Lagrange (FH, HRIH), 
611-613 
Multivariable analysis (多 变量 分 析 ) 
chain rule ( 链 式 规则 )，593-594 
Hessian matrix (ÆRE), 596 
Jacobian matrix (EPJ LEERE), 597 
matrix calculus (BE G4 E1424) 594-596 
differential of scalar functions with respect to a 
matrix (RE eh eK FARE GS), 595-596 
differentiation of scalar functions with respect to a 
vector (标量 函数 关于 向 量 的 微分 )，594-595 
principles of (原理 ， 原 则 ) 589-598 
quadratic forms (二 次 型 )，592-593 
sets and functions (集合 和 国 数 ) 589-592 
Taylor series expansion (泰勒 级 数 展开 )，597-598 


N 


NARMA. See Nonlinear autoregressive moving average 


(NARMA， 参 看 非 线性 自 同 归 滑 动 平 均 ) 
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Negative definite energy function ( EREE ER), 349 
Negative kurtosis (fiğ), 504-505 
Network configuration (网 络 配 置 )，111-112 
Networks; See also Neural networks (网 络 ， 也 可 参看 神 
经 网 络 ) 
ability to generalize ( 泛 化 能 力 )，111-112 
associative memory (联想 记忆 )，97-106 
correlation matrix (相关 年 阵 ) 100-104 
error correction approach for correlation matrix (44 
关 和 矩阵 的 误差 修正 方法 )，104-106 
general linear distributed (一 般 线性 分 布 )，98-99 
counterpropagation (对 传 )，136-140 
Elman, 222 
feedforward, temporal (前 馈 ， 时 间 的 )，221-231 
local minima of (局 部 最 小 ) 209 
mapping (映射 )，96-152 
recurrent (递归 ) 198-221 
simple (简单 的 ) 222-226 
self-organizing ( 自 组 织 ) 165-197 
adaptive resonance theory neural networks ( 自 适 应 
共振 理论 神经 网 络 ) 182-190 
Kohonen self-organizing map (Kohonen 自 组 织 映 


射 ) 166-172 
learning vector quantization (学 习 向 量 量 化 )，173- 
182 
spatiotemporal sensitivity of static (状态 的 时 空灵 敏 
tE), 222 


Neural network approach (神经 网 络 方法 ) 
for partial least-squares regression (部 分 最 小 二 乘 回 
J4), 442-450 
rebust ($4), 450-455 
for the symmetric eigenvalue problem (对 称 特 征 值 回 
gi), 315-320 
Neural network architectures, examples of (神经 网 络 体 
系 结构 ， 例 子 ) 18 
Neural networks (神经 网 络 ) 
adaptive estimation of principal components, learning 


algorithms for ( 主 成 分 学 习 算法 的 自 适 应 估计 )， 


400-426 
adaptive resonance theory ( 自 适 应 共振 理论 ) 182- 
190 


artificial (人 工 的 )，3-5 

for the augmented Lagrange multiplier method ( 增 广 
拉 格 朗 日 乘 子 法 ) 281-286 

for barrier function NP methods (障碍 函数 的 NP 方法 )， 
275-276 

classification of (分 类 )，18-19 

distributed information in {分布 信息 )，5 

for linear programming problems (线性 规划 问题 )， 


244-256 
the nonstandard form ( 非 标准 形式 )，250-256 
the standard form (标准 形式 ) ，247-250 
for nonlinear continuous constrained optimization 
problems ( 非 线 性 连续 约束 优化 问题 )，268-286 
for NP methods (NP 方法 ) 
ordinary Lagrange multiplier (普通 拉 格 朗 是 乘 子 )， 
276-281 
penalty function (#2 Ti 2X), 269-275 
for optimization problems (优化 僻 题 )，、243-291 
for quadratic programming problems (二 次 规划 问题 )， 
257-268 
radial basic function 〈 径 向 基 国 数 ) 140-152 
recurrent (递归 )，19,198-221 
Boltzmann machine ($k /RZZBHL), 215-221 
Hopfield associative memory ( 霍 普 非 尔 德 联想 记 
忆 )，199-209 
overview of (概览 )，198-199 
simulated annealing (模拟 退火 ) 209-215 
robust nature of (和 角 棒 性 )，S 
solving linear algebraic equations with (求解 线性 代数 
方程 组 ) 342-394 
solving matrix algebra problems with (求解 矩阵 代数 
问题 ) 292-341 
structured (结构 )，292-293 
time-delay (时间 延迟 )，226-228 
Neurobiological viewpoint; See also Neuroscience (神经 
生物 学 的 观点 ， 也 可 参看 神经 科学 ) 
postulating a learning process from (假定 一 个 学 习 步 
又 )，6 
Neurocomputing (神经 计算 )，3-23 
defined (定义 )，3-6 
fundamental concepts of (基本 概念 )，24-95 
historical notes on (历史 注释 )，6-13 
mathematical foundation for (数学 基础 )，550-632 
and neuroscience (神经 科学 }，13-18 
Neurocomputing applications (神经 计算 应 用 )，243-632 
for identification , control, and estimation (识别 ， 控 
制 和 和 估计) ，468-S49 
for optimization problems (优化 问题 )，243-291 
for solving linear algebraic equations (求解 线性 代数 
方程 组 )，342-394 
for solving matrix algebra problems (解决 矩阵 代数 问 
题 )，292-341 
statistical methods (统计 方法 ) 395-467 
Neurocomputing approach (神经 计算 方法 ) 
for least-squares solution of systems of linear equations 
(用 于 线性 问题 组 的 最 小 一 乘法 ) 346-351 
for solving the algebraic Lyapunov equation (求解 代 
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数 李 夏普 诺 夫 方程 ) 326-328 
for solving the algebraic Riccati equation (求解 代数 里 
RENFE), 329-334 
Neurocomputing concepts (神经 计算 概念 ) 24-95 
Adaline and Madaline, 35-55 
basic activation functions (基本 激活 明 数 )，27-33 
basic models of artificial neurons (人 工 神经 元 的 基本 
模型 )，25-27 
data preprocessing (数据 预 处 理 )，79-85 
feedforward multilayer perceptron (前 馈 多 层 感 知 器 )， 
62-64 
Hopfield model of the artificial neuron (人 工 神 经 元 的 
霍 普 非 尔 德 模型 )，33-35 
Overview of basic learning rules for a single neuron 
(单个 神经 元 的 基本 学 习 规则 概况 )，64-79 
simple perceptron (简单 感知 器 )，56-62 
Neurons; See also Artificial neuron; single neuron (神经 
元 ， 也 可 参看 人 工 神 经 元 ; 单个 神经 元 ) 
hidden (Hage), 215 
McCulloch-Pitts, 9-13 
output of (输出 ) 56 
stochastic 〈 随 机 的 ) 215-221 
sufficient numbers of (足够 数目 )，111 
threshold of ( 国 值 )，9 
winning (获胜 ) 166,168 
Neuroscience (神经 科学 ) 13-18 
biological neural networks (生物 神经 网 络 ) 13-18 
Newton’s methods (牛顿 法 ) 604-606 
limited-step (有 限 步 )，606 
modified (改进 ， 修 正 )，606-607 
Newton’s optimization algorithm (牛顿 优化 算法 )，132 
NLPCA. See Nonlinear principal component analysis 
(NLPCA， 参 看 非 线性 主 成 分 分 析 ) 
No feasible solutions ( 设 有 可 行 解 )，246 
Noise (噪声 )，101 
Non-Hebbian synaptic activity (4EHebbian 3s feh?G 3), 71 
Non-parametric models 〈 非 参数 模型 ) 469 
Nondistinct eigenvalues ( 非 相 即 特 征 值 )，562 
Nonlinear ARMA ( 非 线 性 ARMA ) 479-484 
Nonlinear autoregressive moving average(NARMA) (E 
线性 自 回 时 请 动 平均 ) 222 
Nonlinear computing ,in the brain ( 非 线 性 计算 ， 在 人 脑 
H), 4 
Nonlinear control ( 非 线 性 控制 ) 492-499 
Nonlinear input-state-output representation ( 非 线 性 输入 
状态 输出 表示 ) ，62, 478-479 
Nonlinear models , of artificial neurons ( 非 线 性 模型 ， 人 
工 神 经 元 )，25-26 
Nonlinear principal component analysis(NLPCA), and 


robust PCA ( 非 线 性 主 成 分 分 析 ， 重 棱 PCA )， 
418-426 
Nonlinear programming ,constrained ( 非 线 性 规划 , 约束 )， 
610-613 
Kuhn-Tucker conditions ( 库 思 一 塔 克 条 件 )，610-611 
Lagrange multiplier methods (HHA A Æ rE), 
611-613 
Nonlinear system representation (jE HEA Kas), 
477-484 
nonlinear ARMA ( 非 线 性 ARMA ) 479-484 
nonlinear input-state-output representation ( 非 线 性 输 
入 状态 输出 表示 )，478-479 
Nonlinear systems, identification and control of dynamic 
( 非 线性 系统 ， 动 态 系 统 的 识别 和 控制 ) 484- 
499 
autoregressive moving average models (ff IY 1#hah € 
均 模 型 ) 469-470 
identification of linear systems with ARMA models 
(具有 ARMA 模 型 的 线性 系统 识别 ) 470-473 
identification of nonlinear systems ( 非 线 性 系统 的 识 
BIL), 484-491 
independent-component analysis, blind separation of 
unknown source signals (独立 分 量 分 析 ， 未 知 信 
号 源 的 宣 分 离 ) 500-519 
linear system representation (线性 系统 表示 )，468- 
469 
nonlinear control ( 非 线性 控制 )，492-499 
nonlinear system representation ( 非 线 性 系统 表示 )， 
477-484 
other case studies (其 他 情况 研究 )}，529-539 
parametric system identification of linear systems using 
PLSNET 〈 利 用 PLSNET 的 线性 系统 的 参数 系统 
识别 ) 473-477 
spectrum estimation of sinusoids in additive noise (在 
加 性 噪声 下 的 正弦 谱 估计 )，519-528 
Nonlinear weight correction rules ( 非 线 性 权 值 修正 规 


则 )，52 
Nonlinearly transformed inputs ( 非 线 性 变换 输入 }，49- 
50 


Nonstandard form of the linear programming problem, 
neural networks for (线性 规划 问题 的 非 标准 形 
K, PHA), 250-256 
Nonstationary processes (JERAI), 621-622 
Nonunique solutions 【不 唯一 解 )，246 
Nonzero inhibitory synapses ( 非 零 抑制 突 触 )}，9 
Normal equations (正规 方程 组 )，120 
for the linear combiner (线性 组 合 器 ) 121-122 
solving CRAE), 122-123 
Normalization (正规 化 ) 403 





486 = MF GI 


Normalized Hebbian learning rule of Oja (Oja 的 正规 化 
的 Hebb 学 习 规 则 )，400-404 

NP-complete (完全 NP)，210 

Numerical rank , ill-determined (数值 秩 ， 病 态 确 定 的 )， 
361-370 


O 


Observability matrix (可 观察 性 矩阵 ) 569 
Observable canonical form (可 观察 典范 形 )，571 
Observation vector (观察 向 量 )，343 
Off-line training (离线 训练 ) 414 
Oja’s learning rule (Oja 学 习 规则 ) 73-75 
normalized Hebbian (正规 化 的 Hebbian) ，400-404 
OLS. See Orthogonal teast squares (OLS， 参 看 正 交 最 小 
二 乘法 ,) 
Online method (在 线 方 法 )，107 
Online processing (在 线 处 理 ) ，342 
Operations, matrix Gai, 8), 553-555 
partitioned (分 区 )，578-581 
Optimal iteration parameters (最 佳 挝 代 参 数 ) 373 
Optimization algorithm, Newton’s (最 优化 算法 , 牛顿 法 )， 
132 
Optimization methods (最 优化 方法 ) 
neurocomputing applications for (神经 计算 应 用 )， 
243-291 
unconstrained (无 约束 )，601-610 
conjugate gradient method (HHEN), 608- 
610 
modified Newton and quasi-Newton methods (改进 
IAA AE: ) , 606-607 
necessary and sufficient conditions for an extremum 
( 极 值 的 必要 充分 条 件 ) 601-602 
Newton’s methods (牛顿 法 )，604-606 
steepest descent (Axi FRE), 602-604 
Ordering phase (HEFFI ER), 169 
Orthogonal decomposition, linear regression with ( 正 交 
分 解 ， 线 性 回归 ) 482-483 
Orthogonal least squares(OLS) ( 正 交 最 小 二 乘法 ) 147- 
152 
algorithm for training an RBF network (训练 RBF 网 络 
的 算法 ) 150-151 
Gram-Schmidt orthogonalization (格拉 姆 ~- 施 密 特 正 
交 化 )，147-148 
regression (回归 )，148-151 
Orthogonal matrices, and conjugate vectors (EX 4ER, 
Jia), 560-561 
Orthogonal projector ( 正 交 投影 )，377 
Orthonormality (规范 正 交 的 )，573 


Outer product rule (外 积 规 则 )，100 

Outer products (外 积 )，100,555-556 

Outliers (出 格 点 )，354 

Output layer (输出 层 ) ，62 

Output space 《输出 空间 ) ，477 

Overdetermined equations ( 超 定 方程 组 ) 343,431 
Overfitting (过 适应 ) 112,429 

Overrelaxation iterative method, successive (AMPS SHIRE 


方法 ， 逐 次 ) 371-373 
P 


Paralie! computing (并 行 处 理 ) 292 
in the brain (A), 4 
Parallei-series configuration (并 行 ~ 囊 行 配置 )，485 
Parametric system identification (参数 系统 识别 ) 43, 
469 
of linear systems, using PLSNET (线性 系统 ， 利 用 
PLSNET), 473-477 
Partial least-squares regression(PLSR) (局 部 最 小 二 乘 回 
中 ) 84, 435-442 
dimension of ( 维 数 ) 527-529 
neural network approach for (神经 网 络 方法 ) 442- 
450 
solution to frequency estimation (频率 估计 解 )，524- 
528 
Partition function (247 Hx), 211 
Partitioned matrices (分 区 矩阵 ) 
inverse of (i), 579-580 
rank of (#&), 580-581 
Partitioned matrix operations (分 区 矩阵 运算 ) 578-581 
Parvo ganglion cells (Parvo 小 细胞 ) 14 
Pascal matrices (帕斯卡 矩阵 ) 588 
Pattern completion (模式 完全 )，217 
Pattern learning (模式 学 习 )，488 
Patterned matrices (模式 化 答 阵 }，585-589 
Patterns (模式 ) 
memorized (记忆 ,)，96-97 
recognition of (识别 )，3 
PCA. See Principal-component analysis (PCA, BAER 
分 分 析 ) 
Penalty parameters (惩罚 参数 )，270-275 
choice of (选择 ， 精 选 )，284 
computational difficulties in using (在 使 用 中 的 计算 


难度 )，275 
Perceptron; See also Simple perceptron (感知 器 ， 参 看 简 
单 感知 器 ) 


feedforward multilayer (前 馈 多 层 )，62-64 
learning rules (学 习 规则 ) 





generalized (广义 的 ) 78-79 
Mays’s, 57-58 
original concept of (原始 概念 ) 7 
Phase variable canonical form (相位 变量 正则 形式 )，571 
Piecewise linear function (分 段 线性 函数 )，29 
Pipelined recurrent neural network(PRNN) (管状 递归 神 
经 网 络 ) 222 
Plasticity (可 塑性 ) 
coefficient of (系数 )，74,403 
vs. stability (相对 于 稳定 性 )，182 
PLSNET, 533-534 
calibration of (校准 )，442-446 
parametric system identification of linear systems using 
(线性 系统 的 参数 系统 识别 )，473-477 
PLSR. See partial least-squares regression (PLSR， 参 看 
部 分 最 小 二 乘 回归 ) 
Positive kurtosis 《〈 正 的 峭 度 ) 504-505 
Potential learning rule (潜在 学 习 规 则 )，75-76 
Power formulas (#23), 631 
Power spectral density functions and matrices (功率 谱 密 
度 函 数 和 年 阵 ) , 624-625 
Prediction algorithms (MMR), 439-442 
Preprocessing 预 处 理 
data (数据 )，79-85,536-539 
transformation (变换 )，80 
Prewhitening process (MHAL), 502-503 
Principal-component analysis(PCA) ( 主 成 分 分 析 )，83- 
84, 396-400 
robust (和 鲁 棒 ) ，418-426 
Principal-component regression ( 主 成 分 回归 ) 425-434 
PRNN, See Pipelined recurrent neural network (PRNN, 
参看 管状 递归 神经 网 络 ) 
Probabilistic correct response patterns (概率 修正 上 蚁 应 模 
xt), 217 
Probabilities, desired (#34, HY), 220 
Probability density functions (WEERA), 617 
Probability distribution functions 〈 概 率 分 布 函 数 ) 616- 
617 
Problem statement (问题 陈述 ) 523-524 
Product , Kronecker (Œ$, W PAH), 581-583 
Product formulas 【乘积 公式 ) 630 
Programmed computing (程序 的 计算 }，3 
Programming .See Constrained nonlinear programming 
(规划 ， 参 看 约束 非 线性 规划 ) 
Propagation. See Backpropagation; Counterpropagation 
(传播 ， 参 看 反 向 传播 ， 对 传 ) 
Pseudoinverse of a matrix (#i8¢69(4i#t) , 293-300,557- 
560 
Pythagorean formulas ( 毕 达 哥 拉 斯 公式 ) 629 


QR factorization (QR 因 子 分 解 )，305-310 
Quadratic forms (二 次 型 )，257-259,592-593 
Quantization (量化 )，56 

learning vector (学 习 向 量 )，173-182 
Quasi-Newton methods ( 准 牛 顿 法 }，606-607 
Quotient formulas ( 商 公式 )，629 


R 


Radial basic function(RBF) neural networks (421m) 3 eA 
神经 网 络 ) 140-152 
orthogonal least squares 〈 正 交 最 小 二 乘法 ) 147-152 
training (训练 ) 
with fixed centers (具有 固定 中 心 )，142-145 
using the stochastic gradient approach (应 用 随机 梯 
度 方法 )，145-147 
Random variables (随机 变量 )，613-616,613-620 
axiomatic approach (公理 方法 )，615 
expectation,mean values,and moments {期望 、 均 值 和 
4), 617-620 
indepencence (独立 性 )，615-616 
probability density functions (概率 密度 函数 ) 617 
probability distribution functions (概率 分 布 国 数 ) ， 
616-617 
relative-frequency approach (相关 频率 方法 ) 613- 
615 
Randomness (随机 性 ) 210 
Range scaling (幅度 范围 )，80 
Rank of a matrix ,and linear independence (和 矩阵 和 的 秩 ， 
线性 独立 ) 557 
Rank of partitioned matrices (分 区 矩阵 的 秩 )，580-581 
RBF NN. See Radial basic function neural networks 
(RBF NN， 参 看 径 向 基 国 数 神经 网 络 ) 
Real square matrices , summary of important properties 
for ( 实 方 阵 ， 重 要 特性 的 概括 ) 583-584 
Real-time processing 〈 实 时 处 理 ) 342 
Real-time recurrent neural network(RTRNN) (实时 递归 
神经 网 络 ) 222 
Recall phase (回溯 阶段 )，202 
Reciprocal formulas (倒数 公式 )，629 
Recurrent neural networks (递归 神经 网 络 }，19,198-221 
Boltzmann machine ($k iR% ØL), 215-221 
Hopfield associative memory ( 霍 普 菲尔德 联想 记忆 ) . 
199-209 
overview of (概览 )，198-199 
simple (简单 的 ) 222-226 
simulated annealing (模拟 退火 ) 209-215 
Recursive least-squares-based backpropagation(RWLS) 
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algorithm (基于 最 小 二 乘 递归 反 向 传播 算法 )， 
66-67，126-129 
derivation of (&#t), 127-129 
matrix inversion lemma (ffia), 126 
Woodbury’s identity (fA (ABS), 126 
Reestimation algorithms ( 重 估计 算法 ) 400 
Regression (回归 ) 
partial least-squares (部 分 最 小 二 乘法 ) 435-442 
neural network approach for (神经 网 络 方法 ) 442- 
450 
principal-component ( 主 成 分 )，425-434 
Regularization methods (正则 化 方法 ) 
for ill-posed problems with ill-determined numerical 
rank (具有 不 定数 值 秩 的 不 适 定 问 题 )，361-370 
Tikhonov, 362 
Representation (表示 ) 
of linear systems (线性 系统 ) 468-469 
matrix (和 矩阵) 553-555 
nonlinear system ( 非 线性 系统 ) 62,477-484 
Representation fields (表示 域 ) 182 
Resolvent matrix ( 预 解 矩阵 }，568 
Riccati equation, neurocomputing approach for solving the 
algebraic (里 卡 蒂 方 程 ， 求解 代数 (里 卡带 方程 ) 
的 神经 计算 方法 ) 329-334 
Richardson's iterative method (〈 理 查 木 友 代 方法 ) 373- 
375 
Right singular vectors ( 右 奇 异 向 量 ) 321 
Robust PLSR ,neural network approach to (和 鲁 棒 PLSR ， 
神经 网 络 方法 ) 450-455 
RTRNN. See Real-time recurrent neural network (RTRNN, 
参看 实时 递归 神经 网 络 ) 
RWLS. See Recursive least-squares-based backpropagation 
algorithm (RWLS ， 参 看 基于 最 小 二 乘 递归 反 向 
传播 算法 ) 


S 


Saturating linear function (饱和 线性 函数 ) 29 
symmetric 《对 称 的 )，29 
Saturation (饱和 )，403 
Scalar functions (teh Be) 
kernel (4%), 168 
preprocessing 〈 预 处 理 ) 80 
with respect to a matrix (3¢-F- BRE), 595-596 
with respect to a vector (关于 向 量 ) 594-595 
Scaling (RÆ, W), 80-81 
variance (变化 )，80 
Schmidt. See Gram-Schmidt orthogonalization (Schmidt, 
BAMHI- MEFE) 
Schur decomposition (8f 734) ø). 311-313 





Schwartz. See Cauchy-Schwartz inequality (Schwartz, 
BA AWAKE EX) 
Search phase (搜索 阶段 )，115 
Search-then-converge method (搜索 然后 收 和 化 ) ，41， 
115-116 
Search time constant (搜索 时 间 常 数 }，41 
Self-amplification ( 自 放 大 )，412 
Self-organizing map(SOM) ( 自 组 织 映射) 
Kohonen, 166-172 
and LVQ, 180-182 
Self-organizing networks ( 自 组 织 网 络 ) 165-197 
adaptive resonance theory(ART) neural networks (ff 
适应 共振 理论 神经 网 络 ) ，182-190 
Kohonen self-organizing map (Kohonen 自 组 织 映射 )， 
166-172 
learning vector quantization (学 习 向 量 量 化 ) 173- 
182 
Sensitivity (RJE), 117 
spatiotemporal (时 空 ) 222 
SEP. See standard error of prediction (SEP， 参 看 标准 预 
测 误差 ) 
Separability , linear (可 分 性 ， 线 性 的 ) ，46-48 
Separation process (分 离 处 理 ) 503-505 
Set theory (#416) 
and functions (8), 589-592 
fuzzy (#1), 628-629 
Shaping filter (修正 滤波 器 )，626 
Short-term memory (短期 记忆 )，98，221 
Sigmoid functions (S 形 函数 ) 
binary (一 值 的 ) 30-31 
bipolar (RHE), 31-33 
hyperbolic tangent ( 双 曲 正切 ) 31-33 
Signum function (符号 函数 )，28 ，44 ，202 
Similarity transformations (相似 变换 )，564-565 
Simple adaptive linear combiner ,and the LMS algorithm 
(简单 自 适 应 线性 组 合 器 ，LMS 算 法 ) 36-44 
Simple degeneracy (简单 退化 ) 562 
Simple perceptron (简单 感知 器 ) 56-62 
Mays’s perceptron learning rules (Mays 感 知 器 学 习 规 
W), 57-58 
with a sigmoid activation function (具有 S 形 激活 也 
$t), 58-62 
Simple recurrent network(SRN) (简单 递归 网 络 ) 222- 
226 
Simulated annealing (模拟 退火 ) 209-215 
Simultaneous linear algebraic equations, systems of (Hk 
立 线性 代数 方程 组 ， 系 统 )，343-344 
Single-component case ( 单 成 分 情形 ) 429 
Single-input, single-output(SISO) case ( 单 输入 单 输 出 
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(SISO) 情况 ) 468, 484 
Single neuron, learning rules for (单个 神经 元 ， 学 习 规 
则 )，64-79 
Singular-value decomposition (奇异 值 分 解 )，320-325， 
574-577 
generalized (广义 )，367 
Singular values (奇异 值 )，573 
Sinusoids in additive noise, spectrum estimation of (加 性 
噪声 正弦 ， 谱 估计 )，519-528 
SISO, See Single-input ,single-output case (SISO, 参看 
单 输入 单 输出 情况 ) 
Slab ( 板 )，62 
“Slow” learning (“ 惕 ”学 习 )，55，183 
SOM. See Self-organizing map(SOM) (SOM， 参 看 自 组 
织 映射 ) 
SOR. See Successive overrelaxation iterative method 
(SOR ， 参 看 逐次 超 松 弛 和 夺 代 方法 ) 
Spatiotemporal sensitivity of static networks (静态 网 络 
的 时 空 敏感 性 ) 222 
Special matrices (特殊 矩阵) 585-589 
Spectral factorization ( 谱 因 子 分 解 ) 
eigenvalue decomposition (特征 值 分 解 )，313-314 
linear systems driven by (驱动 的 线性 系统 )，625-628 
Spectral residue (WHW), 450 
Spectrum estimation, of sinusoids in additive noise ( 谱 估 
计 ， 加 性 噪声 的 正弦 ) 519-528 
PLSR solution to frequency estimation (频率 估计 的 
PLSR 解 ) 524-528 
problem statement (问题 陈述 )，523-524 
Splittings. See Matrix splittings (分 裂 ， 参 看 矩阵 分 裂 ) 
Spread parameter, setting (扩展 参数 ， 设 置 ) 144-145 
Square matrices , real and complex ,summary of important 
properties for 《 方 阵 ， 实 的 和 复 的 ， 重 要 性 质 小 
结 ) 583-584 
SRN. See Simple recurrent network (SRN， 参 看 简单 递 
归 网 络 ) 
Stability, vs. plasticity (稳定 性 相对 于 可 塑性 )，182 
Standard backpropagation (标准 的 反 向 传播 ) 
ability of network to generalize (网 络 泛 化 能 力 )， 
111-112 
independent validation (独立 检验 )，112 
initialization of synaptic weights ( 突 触 权 值 的 初始 化 )， 
110-111 
network configuration (网 络 配 置 )，111-112 
practical issues in using (在 使 用 中 的 实际 问题 )， 
110-113 
speed of convergence (收敛 速度 ) 112-113 
Standard error of prediction(SEP) (标准 预测 误差 ) 433 
minimum (最 小 值 ) 434 


Standard form of the linear Programming problem , neural 
networks for (线性 规划 问题 的 标准 形式 ， 神 经 
网 络 )，244，247-250 

Standard Hebbian co-occurrence ( 标 谁 Hebbian 共 生 )， 


402 
Standard perceptron learning rule (标准 感知 器 学 习 规 则 )， 
77-78 


State-space description of dynamical systems (动态 系统 
的 状态 空间 描述 )，566-571 
State transition matrix 《状态 转移 矩阵 ) 567 
Static networks, spatiotemporal sensitivity of (静态 网 络 ， 
时 空 敏 感性 ) 222 
Stationary processes (稳定 过 程 )，621-622 
Statistical learning (统计 学 习 )，55 
Statistical methods using neural networks (利用 神经 网 络 
的 统计 方法 ) 395-467 
learning algorithms for neural network adaptive 
estimation of principal components (神经 网 络 对 
主 成 分 的 自 适 应 估计 学 习 算 法 ) ，400-426 
neural network approach for partial least-squares 
regression (部 分 最 小 二 乘 回 归 的 神经 网 络 方法 )， 
442-450 
partial least-squares regression (部 分 最 小 二 乘 回归 ) , 
435-442 
principal-component analysis ( 主 成 分 分 析 ) 396-400 
principal-component regression ( 主 成 分 回归 ) ，425- 
434 
robust PLSR ,a neural network approach (和 鲁 棒 PLSR ， 
神经 网 络 方法 ) 450-455 
Steepest descent (最 速 下 降 )，36，105，602-604 
Stochastic gradient ascent algorithm (随机 梯度 上 升 算 
法 )，410-411 
Stochastic gradient-based method for training an RBF NN 
(训练 RBF NN 的 基于 随机 梯度 方法 ) 146 
Stochastic neurons (随机 神经 元 )，215-221 
Stochastic processes (随机 过 程 )，620-624，620-628 
ergodic and nonergodic (PaE), 622 
linear systems driven by white noise and spectral 
factorization (由 白 噪 声 和 谱 因 子 分 解 驱 动 的 线 
性 系统 )，625-628 
power spectral density functions and matrices (功率 谱 
WE cA BERE), 624-625 
vector (向 量 )， 624 
Storage phase (存储 阶段 )，202 
Stored patterns (存储 模式 )，96 
Structured neural networks (结构 神经 网 络 )，292-293 
Sub-Gaussian signals (次 高 斯 信号 )，504 
Subspace learning rule, symmetric ( 子 空间 学 习 规 则 ， 对 
称 的 ) ，404-407 
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Successive overrelaxation(SOR) iterative method (逐次 
超 松弛 和 迭代 方法 ) 371-373 
Sum, Kronecker ($n, # BAG), 581-583 
Super-Gaussian signals ( 超 高 斯 信号 ) 504 
Supervised learning (监督 学 习 )，106，174 
Supremum (EMF), 573 
Symmetric eigenvalue problem 《对 称 特征 值 问 题 )，313-314 
neural network approach for (神经 网 络 方法 )，315-320 
Symmetric hard limiter function (对 称 的 硬 限制 函数 ) 27 
Symmetric saturating linear function (对 称 饱 和 线性 男 
数 ) 29 
Symmetric subspace learning rule (对 称 子 空间 学 习 规 
则 )，404-407 
Synapses. See Hebb synapses ( 突 触 ， 参 看 Hebb 突 触 ) 
Synaptic weights,initialization of ( 突 触 权 值 ， 初 始 化 )， 
110-111 
Synchronous activation (同步 激活 ) 69 
System dimensions,assumed (AAEM, HH), 473 
System identification (系统 识别 ) ，469 
System parameters,minimal realization (系统 参数 ， 最 小 
实现 )，476 
System representation; See also Nonlinear systems (系统 
表示 ， 参看 非 线 性 系统 
nonlinear ( 非 线 性 )，477-484 
Systems of linear equations (线性 方程 组 )，343-361 
algebraic ，simultaneous (代数 的 ， 联 立 的 )，343- 
344 
conjugate gradient learning rule for solving 〈 用 于 求解 
MISE RGB REHM), 351-354 
corrupted with noise ,generalized robust approach for 
solving (由 噪声 损坏 ， 用 于 求解 的 广义 鲁 棒 方 
法 )，354-361 
least-squares solution of (最 小 二 乘 解 )，345-346 
neurocomputing approach for (神经 计算 方法 ) 346- 
351 


T 


Target data ( 目标 数据 ) 395 

Target values (目标 值 )，429 

Taylor series expansion (泰勒 级 数 展开 )，597-598 
TDNN. See Time-delay neural networks (TDNN ， 参 看 


时 延 神经 网 络 ) 
Temporal feedforward networks 《时间 前 饶 网 络 )，221- 
231 


distributed time-lagged feedforward neural networks 
(分 布 式 时 滞 前 馈 神 经 网 络 ) 228-231 

overview of (概述 ) 221-222 

simple recurrent network (简单 递归 网 络 ) 222-226 

time-delay neural networks (时 延 神经 网 络 ) 226-228 


Threshold, of a neuron ( 阅 值 ，-- 个 神经 元 ),， 9 
Threshold function (WHA), 27-28 
Tikhonov regularization (Tikhonov EHHE), 362, 368 
Time autocorrelation function (时 间 自 相关 国 数 ) 623 
Time-delay neural networks(TDNN) (时 延 神经 网 络 ) ， 
33, 221-222, 226-228 
Time-dependent mechanisms (时 间 依 赖 机 制 )，70 
Time-frequency descriptions ( 佬 频 描述 )，85 
Time-lagged feedforward neural networks, distributed 
CY AS A at HES AR, ARI), 228-231 
TLS. See Total least-squares problem (TLS, BAMA 
小 一 乘 问题 ) 
Toeplitz matrices (#2 Fill AERE), 586 
Topological ordering property (拓扑 排序 性 质 ) 166, 
170 
Total least-squares(TLS) problem (总 体 最 小 二 乘 和 问题)， 
375-378 
Training (训练 ) 
algorithm for an RBF NN with fixed centers (用 于 具 
有 固定 中 心 的 RBF NN 的 算法 ) 145 
conjugate-gradient-based algorithm for training an 
MLP NN (训练 MLP NNAY3E TRER 
we), 124-125 
off-line (离线 )，414 
process of (过 程 )，45 
the RBF NN 
with fixed centers (具有 固定 中 心 )，142-145 
using the stochastic gradient approach ( 利 由 随机 梯 
度 方法 )，145-147 
Training algorithm (训练 算法 ) 123-126 
Training data (训练 数据 ) 395 
Training measurements (训练 度量 ) 433 
Transfer function matrix (转移 函数 矩阵 ) 568 
Transformation preprocessing 《变换 预 处 理 ) 80 
Transformations (4#), 81 
affine ( 仿 射 )，26 
similarity (相似 性 )，564-565 
Triangular systems (三 角 系 统 )，301-302 
Tridiagonal matrix (= %} fA 4EBE), 586 
Trigonometric identities (三 角 人 恒等式 ) 629-631 
Truncation parameter (截断 参数 ) 363 
Tucker. See Kuhn-Tucker conditions (Hw, EEB- 
塔 克 条 件 ) 
Two-state device, McCulloch-Pitts neuron as ( 双 状 态 设 
计 ，McCulloch-Pitts 神 经 元 ) 9 


U 


Unbounded solutions (无 界 的 解 )，246 
Unconstrained optimization methods (无 约束 最 优化 方 
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7#E), 601-610 
conjugate gradient method (JESEES REA H:), 608-610 
modified Newton and quasi-Newton methods (改进 的 
牛顿 法 及 拟 和 牛顿 法 ) 606-607 
necessary and sufficient conditions for an extremum 
( 极 值 的 充分 必要 条 件 ) 601-602 
Newton's methods (牛顿 法 )，604-606 
steepest descent (最 速 下 降 )，602-604 
Underdetermined equations (从 定 方程 组 )，343，431 
Uniform probability density function (均匀 概率 密度 映 
Br), 619-620 
Unique solutions (HE -#Ẹ¥), 246 
Unit vector (单位 向 量 ) 572 
Unitary matrices, and conjugate vectors (8k, HE 
fh] Bt), 560-561 
Unsupervised learning (无 监督 学 习 ) 165 
Update step, 40; See also Momentum updating (更 新 步 ， 
40， 参 看 动量 更 新 ) 


V 


Validation; See also Cross-validation independent (确认 ， 
参看 交叉 确认 独立 性 ) 112, 434 

Vandermonde matrices (WH ERE), 587-588 

Variance-scaling (Jj 24%), 80, 436 

Vector-matrix form ,of the backpropagation algorithm 
(Wal SRK, Be eH), 117-119 

Vector norms ( (a SER), 571-574 

Vector quantization „learning (向 量 量化 ， 学 习 )，173- 
182 

Vector spaces (i E2), 552-553 

fields and (18), 550-553 

Vectors (P), 553-554 

conjugate, orthogonal and unitary matrices and (JE 4, 


TE. 26 Ff Fn ES), 560-561 


differentiation of scalar functions with respect to ( 关 
TIRE ca Bhs), 594-595 

error (RÆ), 430 

latent variable (KREE), 437 

linear independence of (线性 无 鞭 )，556 

loading (装载 )，431, 437-439 

observation (观察 ， 观 测 ) ，343 

right singular (A), 321 

stochastic processes of (随机 过 程 )，624 

weight ( 权 值 )，202 

weight loading ( 权 值 装载 )，436-437 
Vigilance parameter (警戒 参量 ) 182 
Voronoi quantizer (Voronoi BR {te ), 173 


w 


Wavelets and wavelet transforms (小 波 和 小 波 变 换 }，84- 
85 
Weight correction (修正 权 值 ) 
for errors (误差 )，78 
rules for nonlinear ( 非 线性 规则 ) ，52 
Weight loading vector ( 权 值 装载 向 量 )，202, 436-437 
Weighting function (JiR eae), 450 
Weighting matrix (加 权 和 矩阵 )，66, 450 
White noise ,linear systems driven by 〔〈 包 噪声， 被 驱动 
的 线性 系统 ) 625-628 
Wide-sense-stationary processes ( 宽 平 稳 过 程 ) 622 
Widrow-Hoff learning rule (Widrow-Hoff 学 习 规 则 ) ， 
35-37 
Winning neuron (获胜 神经 元 ) 166, 168 
Woodbury’s identity (伍德 伯 里 恒等式 )，126 


Z 


Zero-mean (37-43), 500 


